1、介绍自己的中厂实习,从业务背景,闲难,解决方法,自己的产出四个维度阐述2、ppo和dpo区别和原理(因为实习做的就是r相关)3、是不是用的Verl框架做的rl?详细讲一下verl框架的训练流程。并讲一下配置文件中rollout batchsize, global batch_sizemicro_batch_size_per_device_for_update,rollout.n等等参数的关系,以及他们如何影响最终更新时每张显卡上的样本数。4、reward function如何设计的为什么这么设计?5、critic model作用是什么?为什么有了reward model还需要critic model?6、有没有了解最近的r方法?过了一遍grpo,dapo,gspo过了的主要改进点7、grpo算法中kl散度和之前的方法有什么区别?在dapo中为何舍弃了kl散度?8、模型蒸馏主要的两种方式。硬标签和软标签。9、介绍一下kmeans算法,如何设置合适的k值。如果在一个非常大的数据量中,如何实时增量更新,并动态管理k值。10、计算机基础八股: B树和B-树的区别。如果CPU突然被打满了,如何排查?什么情况下会出现死锁,如何解决。11、核心代码模式,写一下大模型预测token时,beam树如何构建,如何得到最终的结果(pytorch简单实现了一下,主要是还是讲明白)12、手撕hot100,中等题。最小生成树