📍面试公司:蔚来🕐面试时间:2026.03.16💻面试岗位:大语言模型强化学习算法实习生❓面试问题:自我介绍项目经历1,拷打项目动机,方法细节,评测方式,遇到的难点和解决方式,提出的方法为什么有效强化学习算法理论基础,介绍PPO算法,算法计算公式,优点,训练流程,介绍GRPO算法,特点,优势有关强化学习算法的代码库,TRL,VERL,Ray等询问对于Agentic RL 的认识,其中可能存在的难点,答了算法侧的稀疏奖励问题和工程实现上各类工具的稳定性编程题,word1->word2的最小操作次数🙌面试感想:自我介绍吟唱时间太长,适当压缩为教育背景,研究背景,项目/实习经历的简单介...