算法打工人阿旺 level
获赞
214
粉丝
270
关注
0
看过 TA
1669
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
2025-05-21 20:12
中山大学 算法工程师
✴️算法面试中遇到一道实战场景题:在大模型训练中使用GRPO,训到一半 reward 就很容易突然掉下来的原因?GRPO 出现这个问题,需要详细了解强化学习(RL)的基本迭代架构,即 Actor-Critic 架构。知行互动(AC)架构为什么要有 Critic 呢?这就涉及强化学习的算法稳定性问题。与监督学习(SL)相比,RL 实际上是很难稳定的一类训练机制。💣大致的原因如下:RL 本身是处理动态系统的最优控制问题,而 SL 是处理一个静态优化问题。动,就比静更难处理。加上 RL 的数据非稳态,Env-agent 交互机制的数据采集量少,这使得梯度计算的方差更大,方差一大就容易偏离预期目标,算法就容易跑飞了。主流的强化学习算法是怎么解决这一问题的呢?加上 Critic,使用 State-value function 或者 Action-value function 稳定策略梯度的计算过程。更高级一些的算法是采用 Advantage Function,也就是加上了 Baseline,增加梯度计算的稳定性。这是 AC 算法总是优于 REINFORCE 算法的原因之一。✅然而 GRPO 并没有 Critic 部分,原因比较简单,因为 GRPO 是用于训练大模型(1000 亿级别的参数规模),若是使用“知行互动”架构的话,等于需要存储两个大模型。Critic Network和 Actor Network,对存储要求极高。怎么节约存储呢?把 Critic Network 去掉,替换为在线估计 Advantage function 的算法,采用了“时间(算力)”换“空间(存储)”的做法。这就是 GRPO 的设计思想。与之对比,OpenAI 提出的 PPO 算法(也是 GRPO 的基础算法),它的值函数通常是一个与策略模型大小相当的模型,这带来了显著的内存和计算负担。考虑到 OpenAI 并不缺算力资源,不缺存储资源,即使 PPO 算法设计的如此糟糕,照样用的风生水起。🤳回到最初的话题,从原理上看 GRPO 并非完美,与 PPO 相比实际上处于是半斤八两的水平,算法设计存在“稳定性”缺陷,但是为什么 DeepSeek 还能用的比较好呢?因为 DeepSeek 的数据足够多,多到可以“完美”地避开 GRPO 的稳定性缺陷。每次的 Policy Gradient 计算,只要 Batch 数据足够多,就能有效降低 Policy Gradient 的方差,就能获得比较稳定的迭代。当每次使用的数据批量比较小的时候,它的稳定性缺陷将是致命的。这类规模的策略训练,建议优先选择带有 Critic 的强化学习算法。🌟如果大家想了解高质量的项目辅导以及提升面试能力,欢迎后台咨询。
简历中的项目经历要怎么写
0 点赞 评论 收藏
分享
2025-05-15 21:07
中山大学 算法工程师
查看9道真题和解析
0 点赞 评论 收藏
分享
2025-05-14 22:02
中山大学 算法工程师
0 点赞 评论 收藏
分享
2025-05-12 07:39
中山大学 算法工程师
简历中的项目经历要怎么写
0 点赞 评论 收藏
分享
2025-05-10 10:40
中山大学 算法工程师
今天老师给大家整理了部分搜索推荐算法工程师(实习)面经。供各位同学参考。✅一面1.自我介绍2.先问如果面试通过了,什么时候可以来实习,实习可以线下不3.问有实习过吗?4.简单了解下简历上的两个项目除了这个课程设计,对于推荐还了解哪些5.介绍下推荐系统的流程6.召回和排序比较大的差异点7.为啥排序会比召回的结果要准呢?8.项目中 DIN 模型里面的 attention 是怎么做的?score 是怎么得到的?知道原文里是怎么做的吗?9.现在主要研究是 NLP 吗?10.简历上的在投论文是一作吗?结果咋样?11.未来是希望做 NLP 还是 做推荐12.毕业论文开始写了吗?13.实验有做推荐的吗?14.大数据相关的技术了解如何?15.用户意图理解、用户兴趣、画像建模,应用到推荐上16.编程题:本科是计算系的,平时刷过 leetcode 吗?回答说:没有刻意刷过,不知道该如何回答。17.判断二叉树是否是镜像二叉树,就是判断是否对称。leetcode 原题回答说这个题可以用递归和迭代来做,写了递归实现。✅二面1.自我介绍2.先问了在投的论文,接受了吗?介绍下这篇 paper3.主观性很强的场景,如何做量化等等4.结果 f1 提升的 1% 怎么保证有效性,如何保证置信呢?5.固定随机种子后,多次实验结果相同吗?6.介绍下第二个项目,跟推荐系统相关的7.结合这个项目,说说自己对推荐系统的了解8.多目标混排算法有哪些9.召回主流的做法10.召回的目的是什么,推荐系统一定需要召回吗?11.介绍下 embedding 召回12.推荐系统冷启动问题,怎么解决13.怎么解决排序结果都是之前电影相似电影的结果14.编程题:最长无重复子数组,leetcode 原题,用滑动窗口来做。📳***************************************
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务