百度 - 大模型后训练实习生 二面

📍面试公司:百度

🕐面试时间:2026.03.20

💻面试岗位:文心一言 后训练

❓面试问题:

  1. 自我介绍,教育背景,项目,和实习(两段本科Java web实习,没有后训练实习经验)
  2. GRPO训练的数据流
  3. KL散度的计算公式,怎么做平滑
  4. softmax的计算公式,怎么防止数值爆炸,有什么影响
  5. GRPO里的$\pi_\theta$, $\pi_\theta_{old}$, $\pi_\theta_{rollout}
  6. GRPO里是off-poliy/on-policy,当batch_size非常大时,如何缓解off-poliy的问题?
  7. 平时使用vibing code的频率,以及使用的模型有哪些?
  8. 了解TRL,VERL吗?
  9. transformers,pytorch库使用频率
  10. 编程题:使用transformers,pytorch实现Qwen2模型的SFT训练
  11. 反问:
  12. 实习base - 上海
  13. 实习薪资 - 250+20
  14. 业务方向 - 后训练,开源生态,科研导向

🙌面试感想:

  1. 薪资太低
  2. GRPO训练的工程实践匮乏
#发面经攒人品#
全部评论

相关推荐

点赞 评论 收藏
分享
暴杀流调参工作者:春招又试了一些岗位,现在投递很有意思,不仅要精心准备简历,投递官网还得把自己写的东西一条一条复制上去,阿里更是各个bu都有自己的官网,重复操作无数次,投完简历卡完学历了,又该写性格测评、能力测评,写完了又要写专业笔试,最近还有些公司搞了AI辅助编程笔试,有些还有AI面试,对着机器人话也听不明白录屏硬说,终于到了人工面试又要一二三四面,小组成员面主管面部门主管面hr面,次次都没出错机会,稍有不慎就是挂。 卡学历卡项目卡论文卡实习什么都卡,没有不卡的😂
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务