第 7 题:困惑度(Perplexity)如何评估语言模型

题目

什么是困惑度(Perplexity)?它如何评估语言模型性能?

一、定义与公式

困惑度(Perplexity, PPL) 是语言模型在测试集上对“下一个 token 预测”的平均不确定程度的度量,等价于交叉熵的指数

设测试序列为 为 token 总数),模型给出 ,则:

其中 就是平均交叉熵(每个 token 的负对数似然的平均)。所以:PPL 越低 = 平均交叉熵越低 = 模型对真实下一个 token 给的概率越高 = 语言建模越好

二、直观含义

  • PPL = 1:理想情况,模型对每个真实 token 都赋概率 1,即“完全不困惑”。
  • PPL 越大:模型越“困惑”,对真实 token 赋的概率越低,预测越差。
  • 等价解释:PPL 可以理解为“模型觉得下一个 token 平均有多少个等概选项”。例如 PPL = 100,可粗略理解为平均在约 100 个等概选项中犹豫。

面试可能问:“PPL 和 loss 的关系?”——PPL = exp(loss),若 loss 是平均交叉熵(对自然对数),则两者一一对应;PPL 下降等价于 loss 下降。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论

相关推荐

面试体验非常非常好,面试官很尊重人,问的很细。这个贴子是回顾我4个月前的一场面试,25年12月24号,可以说是处女面,但是当时八股没怎么背过,项目也讲的依托。项目是苍穹外卖+mini博客,也没有实习有不会的没掌握的地方,我说不好意思这个不太会,没了解过,面试官说没关系讲讲项目里你做了哪些,哪些熟悉,我就问你哪些,现在想想自己第一次面试遇到这么好的面试官也很欣慰,自己太菜了不争气没有过。1.面试官先讲公司的情况,以及岗位情况,让我选择入职是做测试还是开发。2.问我薪资期待多少,我看岗位写100-150我就照常说了,这时候面试官说上海有你同学还是亲戚?住哪里?100-150一天在上海活不下去的。他还打趣我说:"我知道了!这叫付费实习对吧!哈哈哈。”我打哈哈说,不好意思我不太了解那边租房的情况,公司具体位置我也没有查看。面试官说没事,给你写190一天了。3.自我介绍4.没有拷打八股一直在问项目,项目是上线了还是练习项目?5.讲讲websocket,有对比过其他连接吗?为什么选这个?应用在哪里?6.为什么用jwt令牌,session会引起什么问题?7.jwt令牌,那登录信息存哪里?----这个问题我当时有点懵,我就开始拆解token组成了。。。。8.看你用到了redis,有没有考虑过做登录时引入redis?9.AOP是什么?具体应用在哪?10.AOP有几种实现方式?11.讲讲索引吧            -----当时连索引都没有听说过,四个月从se开始学到做完俩简单的项目12.看你用到了阿里云,用来存什么?有用过其他的吗?13.反问,之前没回答上的登录信息存哪里。面试结果:未通过  第一次面试都不知道准备什么,项目也一知半解,懵懵懂懂的,不过面试官很好,四个月过去了还是能记得当时的场景
查看10道真题和解析
点赞 评论 收藏
分享
主包从3月初开始投的简历,最开始面的部门是IEG,然后二面的时候挂掉了,后面又被微信搜索给捞了,结果一面的时候又挂了,后面又被广州的WXG给捞过去了。没错,主包一共经历了六轮面试,好在最后的结果是很好的.......一面(1h左右)- 自我介绍- 拷打在美团的实习(占比很大)- 项目(占比很少)- 八股(cpp + OS + 计网 + 数据库 + rabbitMQ + redis)关于八股这块,MySQL底层问的比较多,其次就是cpp的继承和多态这块儿,中间件也问了些。- 手撕两道算法:最长无重复子串 + 交换链表中的结点二面(1h左右)- 自我介绍- 拷打两段实习:美团,以及一家中厂的实习经历(同样占比很大)- 少量八股(OS + 数据库 + LangChain + docker + cpp)关于八股这块,同样 OS 和 数据库问的比较多,其他就是简历上写的一些小点- 手撕两道算法 + 一道SQL优化:每m个结点反转单链表 + 合并两个有序数组,SQL优化的话,就是加索引(具体我搞忘了)- 反问:部门情况,目前负责的业务。- 最后面试官说还会加一场技术面。三面(50来分钟)- 问实习:美团 + 中厂实习的情况。- 科研情况、实验室方向、读研生活、个人爱好等等。- 三面没有八股和手撕,除了实习问的比较多,其实就是一些个人的学习情况,以及怎么学习技术的...等等。- 反问:组内业务、入职需要做什么(面试官讲的很详细,应该是大Boss)HR面(半小时)- 自我介绍- 家是哪儿的- 平时怎么学习的- 看你是28届的,为什么想这么早来实习?- 导师放不放实习- 在这三段实习中,有没有印象最深刻的?那位实习导师对你的帮助很大?- 有无直系亲属在鹅工作?- 其实就是为什么考研?如何平衡工作与个人学习?- 等等之类的话题,比较轻松,就像是在聊天一样。- 最后说的是周五之前出结果。总结主包一共有过三段实习经历(两段中厂 + 一段大厂),所以面试官更多的是在问实习期间做的事情,解决了什么问题之类的。八股和项目也有在问,但是问的没有实习那么多。除开美团,这是主包面的第二个大厂,虽然有点波折,但还是比较顺利。我个人认为,目前就业竞争比较大,越早实习越好,其次就是如果你本身已经有了 1~2 段大厂实习,那么约面的机会真的很大。字节、京东、滴滴都给了面试机会的,但是字节我挂了,然后京东和滴滴拒了,俗话说:有鹅选鹅嘛😂
牛客92772631...:28届都要抢了嘛
查看24道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务