「 AI 」 一月 28, 2024
HumanEval-X
文章字数 25k 阅读约需 23 mins.
HumanEval-X 是 清华大学 KEG 实验室 THUDM 在 CodeGeeX 系列多语言代码生成模型中提供的一套评价标准。
使用了与 HumanEval 相似的评价方式,不同的是,除 Python 外还包含了 C++、Java、JavaScript、Go 及 Rust 语言的手写样本,可对上述语言的代码生成能力进行评价:
接下来,我们以评估 StarCoderBase-7B 模型的 Java 代码生成能力为例,简单介绍一下 HumanEval-X 的用法。
先来看下数据集,引用 如何...
查看全文