为什么传统 NLP 评估指标(BLEU、ROUGE)对现代 LLM 局限性很大? 传统指标核心是比较生成文本与参考答案在 n-gram 上的表层重合度,存在以下问题: 语义缺失:只关心词汇匹配,不理解语义。如"今天天气很好"与"今天日光很灿烂"意思相近,但得分很低。 无法评估事实准确性:无法检测幻觉,流畅但包含错误事实的回答可能得高分。 忽略多样性与创造性:开放式任务没有唯一标准答案,基于固定答案的评估会惩罚优秀但不同的回答。 长文本评估能力差:无法评估长篇内容的连贯性、逻辑性和结构性。 无视推理过程:只能比较最终答案字符串,无法评估思维链步骤是否正...