百度提前批一面:说下grpo训练loss怎么算
1.自我介绍1min
2.项目介绍,提到了grpo训练
3.说一下grpo的原理以及loss计算
(从策略梯度公式推导开始讲,以及grpo的组间reward怎么算的)
4.为什么需要加上kl约束
(防止更新不稳定,探索太远了)
5.grpo的kl是怎么计算的
(记得是k3-kl)
6.那如果你训练中大量出现全对全错的样本怎么办
(直接丢弃?)
7.如果全部丢弃,会带来什么问题?
(我说有论文表示丢弃没啥问题hhh)
8.面试官摇头,我说那要不再多rollout几个样本
9.怎么多rollout几个?你算一下如果是8张A100训练7B的模型,grpo可以rollout几个样本不炸显存?
10.coding torch写一下grpo的loss吧
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2.项目介绍,提到了grpo训练
3.说一下grpo的原理以及loss计算
(从策略梯度公式推导开始讲,以及grpo的组间reward怎么算的)
4.为什么需要加上kl约束
(防止更新不稳定,探索太远了)
5.grpo的kl是怎么计算的
(记得是k3-kl)
6.那如果你训练中大量出现全对全错的样本怎么办
(直接丢弃?)
7.如果全部丢弃,会带来什么问题?
(我说有论文表示丢弃没啥问题hhh)
8.面试官摇头,我说那要不再多rollout几个样本
9.怎么多rollout几个?你算一下如果是8张A100训练7B的模型,grpo可以rollout几个样本不炸显存?
10.coding torch写一下grpo的loss吧
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
今天 14:38
南开大学 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享