蔚来大模型强化学习训练一面

📍面试公司:蔚来

🕐面试时间:2026.03.16

💻面试岗位:大语言模型强化学习算法实习生

❓面试问题:

  1. 自我介绍
  2. 项目经历1,拷打项目动机,方法细节,评测方式,遇到的难点和解决方式,提出的方法为什么有效
  3. 强化学习算法理论基础,介绍PPO算法,算法计算公式,优点,训练流程,介绍GRPO算法,特点,优势
  4. 有关强化学习算法的代码库,TRL,VERL,Ray等
  5. 询问对于Agentic RL 的认识,其中可能存在的难点,答了算法侧的稀疏奖励问题和工程实现上各类工具的稳定性
  6. 编程题,word1->word2的最小操作次数

🙌面试感想:

  1. 自我介绍吟唱时间太长,适当压缩为教育背景,研究背景,项目/实习经历的简单介绍
  2. 项目介绍不够顺畅,需要处理好实验细节的介绍
  3. 有关RL的理论知识需要再巩固下,一时忘了广义优势估计
  4. 蔚来的该岗位主要是搭建Agentic RL的训练pipeline,面向语音控制的智能座舱积累经验。
#面试问题记录##发面经攒人品#
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务