百度 - 大模型后训练实习生 二面

📍面试公司:百度

🕐面试时间:2026.03.20

💻面试岗位:文心一言 后训练

❓面试问题:

  1. 自我介绍,教育背景,项目,和实习(两段本科Java web实习,没有后训练实习经验)
  2. GRPO训练的数据流
  3. KL散度的计算公式,怎么做平滑
  4. softmax的计算公式,怎么防止数值爆炸,有什么影响
  5. GRPO里的$\pi_\theta$, $\pi_\theta_{old}$, $\pi_\theta_{rollout}
  6. GRPO里是off-poliy/on-policy,当batch_size非常大时,如何缓解off-poliy的问题?
  7. 平时使用vibing code的频率,以及使用的模型有哪些?
  8. 了解TRL,VERL吗?
  9. transformers,pytorch库使用频率
  10. 编程题:使用transformers,pytorch实现Qwen2模型的SFT训练
  11. 反问:
  12. 实习base - 上海
  13. 实习薪资 - 250+20
  14. 业务方向 - 后训练,开源生态,科研导向

🙌面试感想:

  1. 薪资太低
  2. GRPO训练的工程实践匮乏
#发面经攒人品#
全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务