面试题: 为何在小模型上RL有效但大模型上RL效果很差

在小模型中表现良好的许多强化学习(RL)算法策略,往往在迁移到大模型时失去效力。
因此,关于RL在模型尺寸扩展(Scaling)方面的研究一直不够完善(尽管OpenAI有一篇相关研究,但其重点更多在于奖励模型的扩展)。那么,为什么RL在模型尺寸扩展上缺乏良好的趋势呢?又是什么因素导致在小模型中有效的策略在大模型中失效呢?
这里Anthropic的一篇论文中找到了一些线索,该论文揭示了一个他们观察到的现象。在文章中,作者是这么说的:论文作者发现使用64亿参数模型生成的回应训练的特质偏好模型(Trait PM)表现优于使用更大模型生成回应训练的特质偏好模型。这一发现可能可以用生成回应的概念和句法多样性来解释,尽管还需要进一步研究。较小的模型可能倾向于生成概念上更多样化的样本,相较于大型模型,仅仅是因为它们的熵更高。因此,较小模型生成的两个回应在意义上可能差异更大。如果是这样,那么当样本由较小模型生成时,反馈模型可能更倾向于根据回应的意义进行判断。这或许可以解释为什么使用64亿参数模型生成回应时,特质偏好模型表现更好。
相比之下,可以想象的是,1750亿参数模型生成的两个回应在概念上可能更相似,仅在句法上有所不同。在这种情况下,反馈模型可能会根据回应的结构变化进行判断。因此,特质偏好模型可能会学习到与论文作者希望学习的人工智能特质无关的虚假模式。论文作者进行了额外的实验,以检查是否可以通过简单地调整采样温度来提高使用1750亿参数模型生成回应训练的特质偏好模型的性能。确实,通过提高回应生成模型的温度可以增加样本的多样性,但论文作者发现温度对使用1750亿参数模型生成回应训练的1750亿特质偏好模型的性能影响微乎其微。这主要是因为更高的温度往往只会增加样本的句法多样性,而不会增加其概念多样性。这仍然是一个未解决的问题,需要进一步研究来验证这一初步解释。
总结:大模型的输出分布往往在概念上缺乏多样性,而更多地体现在语法多样性上。相比之下,小模型可能会产生更多概念上不同的负样本(或者说非常离谱的负样本),而大模型则不会。因此,许多针对避免这些离谱负样本影响模型训练而设计的强化学习算法,在大模型上可能无法奏效。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

不愿透露姓名的神秘牛友
07-06 09:50
已编辑
歌尔 硬件研发 14x14 硕士双一流
点赞 评论 收藏
分享
发面经,攒人品6.04投递6.05笔试,笔试较为简单6.19一面,是HR面,都是问了一些个人情况,印象最深的有问了高考成绩,理综成绩,真是问到了我的记忆最深处,说实话,都快记不到这些成绩了,又给我回忆了一下远古记忆,哈哈哈,就是不知道这个对于招聘有什么帮助了,最后还问了有没有接触过其他公司提前批,问了期望薪资,顺便还聊了聊韶音的拒绝996的文化。7.09二面,技术面。本来是7.02二面,但是这边实习入职推后了,只问了我15分钟问题,说实话,好久没面试问过八股了,也有一个月没面试过了,有些东西都记得有点模糊,哈哈哈,但是基本都答上来了。1. 指针占几个字节?2.什么情况下会造成堆栈溢出?3.C语言中编译到链接的过程有哪些?4.串口、IIC、SPI的优缺点有哪些?面试官还想问一下CAN协议,但是我实在没用过,只知道can的通信接口是什么样的,速率大概是多少,然后我说用过速率更高EtherCAT,但是面试官好像又不懂这个东西,也没有继续追问我最后二面面试官说我方向不合适,说我是搞电机方向的,他们不搞电机,hhh。筛简历没把我筛掉,HR面也没把我筛掉,二面了说我方向不合适。话说从实习看来没有哪一家因为说我简历里面搞过电机,而他们不搞电机给我挂的,应该就是随便找个理由给我打发掉了,hhh。实习那个寻星计划也不理我,提前批面试也是没有一个好结果,可能是与这家公司无缘了。
xwqlikepsl:老哥这个是纯面MCU吗
查看7道真题和解析
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务