蔚来大模型强化学习训练一面

📍面试公司:蔚来

🕐面试时间:2026.03.16

💻面试岗位:大语言模型强化学习算法实习生

❓面试问题:

  1. 自我介绍
  2. 项目经历1,拷打项目动机,方法细节,评测方式,遇到的难点和解决方式,提出的方法为什么有效
  3. 强化学习算法理论基础,介绍PPO算法,算法计算公式,优点,训练流程,介绍GRPO算法,特点,优势
  4. 有关强化学习算法的代码库,TRL,VERL,Ray等
  5. 询问对于Agentic RL 的认识,其中可能存在的难点,答了算法侧的稀疏奖励问题和工程实现上各类工具的稳定性
  6. 编程题,word1->word2的最小操作次数

🙌面试感想:

  1. 自我介绍吟唱时间太长,适当压缩为教育背景,研究背景,项目/实习经历的简单介绍
  2. 项目介绍不够顺畅,需要处理好实验细节的介绍
  3. 有关RL的理论知识需要再巩固下,一时忘了广义优势估计
  4. 蔚来的该岗位主要是搭建Agentic RL的训练pipeline,面向语音控制的智能座舱积累经验。
#面试问题记录##发面经攒人品#
全部评论

相关推荐

最近我的出租屋隔壁搬来一个新室友,这个室友有点儿奇葩,他是二七届的同学,嗯。当时呃在房间里遇到他,跟他聊了两句。也是来我们公司,然后做测试实习生。但是他犯了三个错误,一个就是刚来第一天就把房子租好了,并没有摸清楚这个工作合不合适他,如果说你把房子租好了,你的这个跳槽成本以及各方面要考虑的就多了,就不能够毫无负担,建议一开始先找个民宿或者找个青年旅店,先干个两三天来体会一下是否真的适合自己。第二个就是想起一出是一出。他在那里干着,觉得不大合适没成长,问我有没有可以活水的机会,然后我就替他问了问我的领导,然后我的领导多方面沟通了一下,决定搞一个实习的岗位,然后也跟他聊了聊,可以让他过来,他还挺开心 我也挺开心结果他那边的领导不放人。然后得知了这个消息之后,就把他辞退了。现在的情况就是,这边我们也不能接受他,那边也只能把他辞退,结果导致这小伙又屁颠屁颠的跑路了。他的那个房子又转租给另一个人了。这一来一回的也亏了几千块。第3点就是不要对工作太过于理想化,这个小伙就是犯了这个错,就觉得自己来实习干的一定是有成长性的工作。一定能做完实习之后能在简历上增加一段有含金量的经历,但事实上很多公司就是招实习生过来打杂活的,过来让你干一些耗时间的,没成长的工作。也是需要踏踏实实的,具体你学到了什么,还是得多靠自己去领会当然了,这个也给我上了一课,因为发现对待一个人,你不能一开始就对他很真诚的,毫无保留,然后就想着帮他,即使是帮了他,别人也可能不会领你的情,并且自己也并没有从中获取一些心理上的满足感,因为这小伙确实灰头土脸的,从北京跑了,好像又要去一家杭州的公司去上班
嵌入式的小白:其实不管啥行业,刚来说都是从打杂一点一点开始的而已,不要把实习想的太好,除非是再同一公司实习半年以上的
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务