百度 大模型后训练 一面

📍面试公司:百度 文心一言

🕐面试时间:2026.03.18

💻面试岗位:大模型RL后训练

❓面试问题:

  1. 自我介绍,教育背景,项目经历
  2. 项目介绍,基于大语言模型的信号灯控制,问题是什么,如何结合熵,怎么评测,指标结果如何
  3. 强化学习理论内容,trust-range和PPO的关系
  4. PPO是off-policy or on-policy? on-policy
  5. 为什么会有importance sampling,采样的策略模型和要训练的策略模型有偏差,重要性采样加以修正
  6. PPO的clip在优势A 正/负时 限制上/下届,A为正限制上届,A为负限制下届
  7. PPO的损失函数怎么计算的?广义优势估计是怎么计算?GAE中lambda的作用,该值大小和GAE 方差/偏差的关系
  8. GRPO的损失计算,在序列级别的损失上,损失如何给到每一个token上?序列级别平均 或 批次级别平均
  9. 其它GRPO变体?DAPO,GSPO,GFPO等
  10. 分布式训练中,优化器/梯度/模型参数占用的显存比例,FSDP和DeepSpeed的Zero-1/2/3
  11. Agentic RL
  12. 代码手撕:二叉树的层次遍历,如何记录每个节点在第几层?

🙌面试感想:

  1. leetcode刷少了,非递归方式没有整出来,节点第几层的问题没有做出来
#发面经攒人品#
全部评论
兄弟是官网投的吗 我投了一周了没一点动静
点赞 回复 分享
发布于 昨天 10:12 湖北

相关推荐

03-17 23:54
黑龙江大学 Java
来个白菜也好啊qaq:可以的,大厂有的缺打手
点赞 评论 收藏
分享
评论
1
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务