蔚来大模型强化学习训练一面
📍面试公司:蔚来
🕐面试时间:2026.03.16
💻面试岗位:大语言模型强化学习算法实习生
❓面试问题:
- 自我介绍
- 项目经历1,拷打项目动机,方法细节,评测方式,遇到的难点和解决方式,提出的方法为什么有效
- 强化学习算法理论基础,介绍PPO算法,算法计算公式,优点,训练流程,介绍GRPO算法,特点,优势
- 有关强化学习算法的代码库,TRL,VERL,Ray等
- 询问对于Agentic RL 的认识,其中可能存在的难点,答了算法侧的稀疏奖励问题和工程实现上各类工具的稳定性
- 编程题,word1->word2的最小操作次数
🙌面试感想:
- 自我介绍吟唱时间太长,适当压缩为教育背景,研究背景,项目/实习经历的简单介绍
- 项目介绍不够顺畅,需要处理好实验细节的介绍
- 有关RL的理论知识需要再巩固下,一时忘了广义优势估计
- 蔚来的该岗位主要是搭建Agentic RL的训练pipeline,面向语音控制的智能座舱积累经验。
查看30道真题和解析
