1️⃣一面 1.自我介绍,问实习和论文2.大模型的超长上下文问题怎么解决预训练和 SFT 的损失一样吗3.RL 中 Reward 和优势有什么区别4. LoRA 训练和全参训练的优劣5.了解哪些常用的 RL 算法6.最新的 GSPO 重要性采样7.讲一下 DeepSeek R1,推理模型怎样训练8.GRPO 比 PPO 强在哪9.对 DAPO 和 VAPO 有了解吗10.代码:接雨水2️⃣二面1.自我介绍,拷打论文,2.简单问了问实习 LoRA 训练和全参训练的优劣3.对大模型训练的数据有什么心得 RL 中 Reward 和优势有什么区别4.On - Policy 和 Off - Policy ZeRO1,ZeRO2,ZeRO3如何节省显存5.d1-756.训练大模型的时候有遇到什么难题吗7.代码:最长递增子序列📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。