「 AI 」 一月 28, 2024
HumanEval-X
文章字数 25k 阅读约需 23 mins.
HumanEval-X 是 清华大学 KEG 实验室 THUDM 在 CodeGeeX 系列多语言代码生成模型中提供的一套评价标准。
使用了与 HumanEval 相似的评价方式,不同的是,除 Python
外还包含了 C++
、Java
、JavaScript
、Go
及 Rust
语言的手写样本,可对上述语言的代码生成能力进行评价:
接下来,我们以评估 StarCoderBase-7B 模型的 Java 代码生成能力为例,简单介绍一下 HumanEval-X
的用法。
先来看下数据集,引用 如何...
查看全文