百度 - 大模型后训练实习生 二面
📍面试公司:百度
🕐面试时间:2026.03.20
💻面试岗位:文心一言 后训练
❓面试问题:
- 自我介绍,教育背景,项目,和实习(两段本科Java web实习,没有后训练实习经验)
- GRPO训练的数据流
- KL散度的计算公式,怎么做平滑
- softmax的计算公式,怎么防止数值爆炸,有什么影响
- GRPO里的$\pi_\theta$, $\pi_\theta_{old}$, $\pi_\theta_{rollout}
- GRPO里是off-poliy/on-policy,当batch_size非常大时,如何缓解off-poliy的问题?
- 平时使用vibing code的频率,以及使用的模型有哪些?
- 了解TRL,VERL吗?
- transformers,pytorch库使用频率
- 编程题:使用transformers,pytorch实现Qwen2模型的SFT训练
- 反问:
- 实习base - 上海
- 实习薪资 - 250+20
- 业务方向 - 后训练,开源生态,科研导向
🙌面试感想:
- 薪资太低
- GRPO训练的工程实践匮乏
