项目询问没挖太深问了个PPO和GRPO DAPO的区别问了一个懂不懂vLLM和SGlang的实现问了一个ms-swift 和 VeRL各自设计上的优劣,我说VeRL用起来更方便,每个模块很清晰,ms-swift集成的太好了,不方便改问了一个宏观的问题:如果给你一个多模型后训练任务,怎么设计训练框架?我说两个点,一个是模型加载,需要考虑到适配不同的模型,方便未来的模型加入进来,另外一个是RL这一块,需要适配不同的算法,让用户自己可以比较灵活的去定义和修改算法,例如你实现了 PPO算法,能不能很方便的改成GRPO,DAPO,GSPO。面试官不太懂训模型这一块比较关心框架设计后面反问工作内容也是提到...