第 7 题:困惑度(Perplexity)如何评估语言模型
题目
什么是困惑度(Perplexity)?它如何评估语言模型性能?
一、定义与公式
困惑度(Perplexity, PPL) 是语言模型在测试集上对“下一个 token 预测”的平均不确定程度的度量,等价于交叉熵的指数。
设测试序列为 (
为 token 总数),模型给出
,则:
其中 就是平均交叉熵(每个 token 的负对数似然的平均)。所以:PPL 越低 = 平均交叉熵越低 = 模型对真实下一个 token 给的概率越高 = 语言建模越好。
二、直观含义
- PPL = 1:理想情况,模型对每个真实 token 都赋概率 1,即“完全不困惑”。
- PPL 越大:模型越“困惑”,对真实 token 赋的概率越低,预测越差。
- 等价解释:PPL 可以理解为“模型觉得下一个 token 平均有多少个等概选项”。例如 PPL = 100,可粗略理解为平均在约 100 个等概选项中犹豫。
面试可能问:“PPL 和 loss 的关系?”——PPL = exp(loss),若 loss 是平均交叉熵(对自然对数),则两者一一对应;PPL 下降等价于 loss 下降。
三
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
Ai Agent:面试300问 文章被收录于专栏
《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。
