攒攒人品!有面试过同岗的朋友欢迎评论区交流1.项目拷打2.sft阶段用的什么模型,数据来源,如何做数据处理,用的什么框架3.ppo如何做的详细介绍,包括数据,怎么训练奖励模型,每个模型的损失什么样子的,在几张卡上做的训练4.dpo训练流程,为什么ppo和dpo你都用了,有什么区别,有没有做对比试验5.怎么评估你微调之后模型有提升6.ppo为什么效果会比dpo强,怎么理解多轮dpo会有提升7.项目中创新点外代码中怎么实现的,详细讲讲,消融实验怎么做的8.整个项目你觉得哪里还有需要提升的地方,有没有新的想法,未来打算怎么做八股部分9.深度学习相关知识,讲几种优化器10.讲MHA原理11.GRPO原理12.Lora原理,r大小对模型训练的影响13.手撕编辑距离(动态规划14.vit训练原理15.clip训练原理