「 AI 」 五月 25, 2025
基于对话补全接口的问答能力评估
文章字数 9k 阅读约需 8 mins.
LLM Evaluator 是一个跨平台的命令行工具,旨在帮助用户评估基于兼容 OpenAI API 对话补全接口的大语言模型(或智能体、RAG 流程)对于有标准答案的问题的回答能力。
基本工作流程为:
llm-evaluator
通过配置文件读取待评估的问题及标准答案,评估标准可选,默认为本质含义一致,可设置为=
表示必须与标准答案完全一致;- 调用候选模型对话补全接口,获得候选模型对待评估问题的回答;
- 使用评估提示词组装问题、标准答案和候选模型回答的内容,交由评估模型对回答进行评估;
- 评...