「 AI 」 九月 15, 2024
使用 Arthur Bench 评估本地领域模型
文章字数 11k 阅读约需 10 mins.
Arthur Bench 是一个评估大模型的开源工具。
使用 Arthur Bench
评估 LLM,需编写少量代码,即测试套件(TestSuite
),在套件中选择内置评分方法(也可自定义评分方法),对 LLM 的相应内容进行评估打分。
内置的评分方法 分为四类:
- 基于提示词评分,如问答正确性(
qa_correctness
)、摘要质量(summary_quality
)、是否存在幻觉(hallucination
); - 基于 Embedding 评分,如(
bertscore
)、(hedging_language...