LLM Evaluation¶

约 1045 个字预计阅读时间 3 分钟

1.核心评估框架：从传统指标到模型裁判¶

评估一个LLM，可以根据测试目标和可用资源，选择不同层次的评估方法。

传统自动指标 (Traditional Metrics)：包括 BLEU、ROUGE、BERTScore 等，适用于机器翻译、文本摘要等有标准答案的任务，通过计算n-gram重叠或语义相似度来打分。它们计算快，但无法衡量语义的细微差别和逻辑连贯性。
评测基准 (Benchmarks)：这是最主流的方法，通过让模型做一系列标准化“考题”来评分。常用基准按能力划分，例如：GLUE/SuperGLUE（基础语言理解）、MMLU（多任务知识）、HellaSwag（常识推理）、TruthfulQA（真实性）。这种方式结果直观、可复现，但存在数据污染和刷榜风险。
人类评估 (Human Evaluation)：由人工评估者直接评价模型输出的质量，通常是最可靠但也是成本最高、最耗时的评估方式。
模型作为裁判 (LLM-as-a-Judge)：让一个能力强大的LLM（如GPT-4）去评估其他模型的输出。它能处理复杂的、开放式的生成任务，但可能存在偏见和不一致。
系统评估 (System Evaluation)：与仅针对基座模型的模型评估不同，系统评估更关注LLM在真实应用场景（如RAG系统、Agent）中的综合表现，包括提示工程、检索逻辑、工具调用等整个管线的效果。

GLUE / SuperGLUE：评估通用的语言理解能力。GLUE包含9项自然语言理解任务，SuperGLUE是难度升级版。
MMLU：衡量模型在57个学科（包含STEM、人文、社科等）上的知识广度。MMLU-Pro是难度升级版，GPQA的问题则更难，旨在达到“专家级”水平。
BIG-bench：包含200多个超难任务，旨在探索LLM的极限能力。
HELM (Holistic Evaluation of Language Models)：一个更全面的评估框架，除了准确性，还强调鲁棒性、公平性、偏见、效率等多个维度。
C-Eval：一个全面的中文基础模型评估套件，覆盖了人文、社科、理工等多个领域。
TruthfulQA：专门用于衡量模型回答的真实性，检测其是否倾向于模仿人类的常见错误认知。
SafetyBench：专注于评估模型在安全、偏见、伦理等方面的表现。
HumanEval：用于评估模型生成代码的正确性和功能性，是代码能力的经典基准。
AGIEval：使用人类标准化考试（如高考、司法考试）的题目来评估模型的“人机对齐”水平。

关键实践步骤：