今天 09:26 华为_系统工程师

发布于上海

关注

第 7 题：困惑度（Perplexity）如何评估语言模型

题目

什么是困惑度（Perplexity）？它如何评估语言模型性能？

一、定义与公式

困惑度（Perplexity, PPL） 是语言模型在测试集上对“下一个 token 预测”的平均不确定程度的度量，等价于交叉熵的指数。

设测试序列为 $x_1, x_2, \ldots, x_N$ （ $N$ 为 token 总数），模型给出 $P(x_i \mid x_{<i})$ ，则：

\mathrm{PPL} = \exp\left( -\frac{1}{N} \sum_{i=1}^{N} \ln P(x_i \mid x_{<i}) \right) = \exp(\overline{\mathrm{CE}})

其中 $\overline{\mathrm{CE}}$ 就是平均交叉熵（每个 token 的负对数似然的平均）。所以：PPL 越低 = 平均交叉熵越低 = 模型对真实下一个 token 给的概率越高 = 语言建模越好。

二、直观含义

PPL = 1：理想情况，模型对每个真实 token 都赋概率 1，即“完全不困惑”。
PPL 越大：模型越“困惑”，对真实 token 赋的概率越低，预测越差。
等价解释：PPL 可以理解为“模型觉得下一个 token 平均有多少个等概选项”。例如 PPL = 100，可粗略理解为平均在约 100 个等概选项中犹豫。

面试可能问：“PPL 和 loss 的关系？”——PPL = exp(loss)，若 loss 是平均交叉熵（对自然对数），则两者一一对应；PPL 下降等价于 loss 下降。

三

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

Ai Agent：面试300问文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造，适配校招、社招全场景，覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题，全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域，拆解考点底层逻辑，分享一线实战经验，助你一站式通关高薪面试。

全部评论

推荐最新楼层

昨天 12:26

广东工业大学嵌入式软件开发

实习简历求拷打

本人广东某双非大三学生，想去找找实习，以下是我的简历，求大佬指点指点🌹。刷boss发现公司的要求总会有一两条我不太符合，这个该怎么办啊

点赞评论收藏

分享

今天 14:14

门头沟学院 Java

有点纠结，有没有佬指点一下

👋个人背景：双非计算机硕，有一篇A类论文。两个offer都要提前实习👏offer1：深圳某小厂做海外广告业务，岗位是AI应用工程师，说是进去要搞算法，大小周要加班，转正薪资14k左右，离家远。💯offer2：无锡某制造业的AI应用管培生，团队刚组建，要用AI降本增效，老板给的压力比较大，转正薪资10k，离家近。

点赞评论收藏

分享

04-24 16:22

已编辑

门头沟学院 golang

26届被毁约，春招投了几天都没约面，路过的大佬可以指导一下简历吗？

个人情况：双非，两段实习原本谈好三月签三方，结果月底说可能没HC，公司来年不招初级开发，可能试用期无法转正。四月初开始投简历，但是还要同时忙毕设，已经是微活的状态了。现在每天都挺焦虑，没找到工作好像也不会做其他的。现在去考研时间也不一定够，而且也不太甘心现在这个结果。希望路过的大佬能指点一下------不知道现在投国企来不来得及，不过感觉学历是硬伤，有没有大佬知道，非常感谢------感谢各位大佬的留言，后续可能考研，不上岸就转行了。

想玩飞盘的熊猫面试中：头像换一下，免得因为头像被挂了

春招至今，你收到几个面试...

点赞评论收藏

分享

04-22 20:47

西安电子科技大学 Java

被学校发现实习被迫终止

友友们，本来在一个做自动驾驶的大厂实习，但因为长时间没刷宿舍门禁刷脸被导员发现，后面被拷问出来在实习后也是迫于压力离职了。但是我争取了一下，公司那边说是如果暑假还有hc的话我可以继续入职。但是只是口头承诺，我很焦虑到时候一句没有hc了就炸了（暑期目前只有一个小厂offer，四月才开始投，两个月生疏八股算法，感觉拿别的大厂暑期实习无望了）  友友们有什么建议吗？比如我要不要持续跟hr聊天来增加些好感度之类的？

牛客96065728...：导员还管不让实习吗，毕业月薪不够2w他来补吗

点赞评论收藏

分享

04-21 21:49

字节跳动_研发工程师

零基础想要系统学习 Agent，千万别错过这两个开源项目！

2026年是 Agent 技术全面落地的一年，身边越来越多的小伙伴开始关注 Agent，想要系统学习，但却卡在了起点：   零基础：面对 AI 圈不断出现的新概念，不知道从哪开始下手；   无实战：看了一堆思维链、自我意识、驾驭工程等的概念，真写代码时还是一头雾水；   文档坑：优质项目多是英文文档，找不到成体系的国内教程。   在 GitHub 上搜 Agent，仓库成百上千，到底哪个才适合新手？别慌，项目贵精不贵多，今天给大家推荐两个 「适合中国宝宝体质」 的硬核开源项目。 一个帮你快速祛魅，看清 Agent 的极简本质；一个带你系统进阶，掌握完整的工程链路。 1. 入门：Learn Cl...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如果春招能重来，我会___ #

2896次浏览 23人参与

# 面试官拷打AI项目都会问什么？ #

887次浏览 24人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

26942次浏览 476人参与

# 除了线上，还能去哪些地方投简历 #

1890次浏览 22人参与

# 你觉得最好用的AI编程工具是_ #

525次浏览 18人参与

# 你会因为行情，降低找工作标准吗？ #

4052次浏览 30人参与

# mt对你说过最有启发的一句话 #

114904次浏览 867人参与

# 你的mentor是什么样的人？ #

61420次浏览 794人参与

# 如何排解工作中的焦虑 #

321577次浏览 2756人参与

# 你和你的mentor相处模式是__ #

4732次浏览 34人参与

# 实习第一天，你在干什么 #

2913次浏览 20人参与

# 双非本科的出路是什么？ #

230571次浏览 1655人参与

# 技术岗笔试题求解 #

116047次浏览 1122人参与

# 机械校招之路总结 #

125321次浏览 2106人参与

# 你有哪些缓解焦虑的方法？ #

60704次浏览 914人参与

# 宣讲会你有哪些意向不到的收获 #

25119次浏览 80人参与

# 听到哪句话就代表面试稳了or挂了？ #

266067次浏览 1722人参与

# 你收到了团子的OC了吗 #

1603391次浏览 11858人参与

# 选offer应该考虑哪些因素 #

168985次浏览 1050人参与

# 一觉醒来，秋招难度下降一万倍…… #

147716次浏览 786人参与

# 0offer互助地 #

774973次浏览 4766人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务