📍面试公司:百度 🕐面试时间:2026.03.20💻面试岗位:文心一言 后训练❓面试问题:自我介绍,教育背景,项目,和实习(两段本科Java web实习,没有后训练实习经验)GRPO训练的数据流KL散度的计算公式,怎么做平滑softmax的计算公式,怎么防止数值爆炸,有什么影响GRPO里的$\pi_\theta$, $\pi_\theta_{old}$, $\pi_\theta_{rollout}GRPO里是off-poliy/on-policy,当batch_size非常大时,如何缓解off-poliy的问题?平时使用vibing code的频率,以及使用的模型有哪些?了解TRL,VE...