1、介绍自己的中厂实习,从业务背景,困难,解决方法,自己的产出四个维度阐述。2、 ppo 和 dpo 区别和原理(因为实习做的就是 rl 相关)3、是不是用的 Verl 框架做的 rl ?详细讲一下 verl 框架的训练流程。并讲一下配置文件中 rollout _ batchsize , global _ batch _ size , micro _ batch _ size _ per _ device _ for _ update , rollout . n 等等参数的关系,以及他们如何影响最终更新时每张显卡上的样本数。4、reward function 如何设计的为什么这么设计?5、critic model 作用是什么?为什么有了 reward model 还需要 critic model ?6、有没有了解最近的 rl 方法?过了一遍 grpo , dapo , gspo 过了的主要改进点7、计算机基础八股: B 树和 B 一树的区别。如果 CPU 突然被打满了,如何排查?什么情况下会出现锁,如何解决。8、核心代码模式,写一下大模型预测token 时, beam 树如何构建,如何得到最终的结果( pytorch 简单实现了一下,主要是还是讲明白)9、手撕hot100,中等题,最小生成树。