题目 什么是困惑度(Perplexity)?它如何评估语言模型性能? 一、定义与公式 困惑度(Perplexity, PPL) 是语言模型在测试集上对“下一个 token 预测”的平均不确定程度的度量,等价于交叉熵的指数。 设测试序列为 ( 为 token 总数),模型给出 ,则: 其中 就是平均交叉熵(每个 token 的负对数似然的平均)。所以:PPL 越低 = 平均交叉熵越低 = 模型对真实下一个 token 给的概率越高 = 语言建模越好。 二、直观含义 PPL = 1:理想情况,模型对每个真实 token 都赋概率 1,即“完全不困惑”。 PPL 越大:模型越“困惑”,对真实 ...