1. sft和预训练讲讲,区别在哪,sft会有什么问题,为什么你这个任务用sft2. sft的复读机问题是什么导致的,为什么数据的重复会导致复读机问题3. 为什么用dpo,dpo是on policy还是off policy,dpo有什么问题4. grpo和ppo属于on还是off,为什么需要clip,为什么选择dpo不是grpo,ppo5. 损失函数mse和交叉熵区别,为什么大模型都用交叉熵6. mha gqa mqa的区别和作用,decoder的自注意力为什么要mask,如何mask,7. 多agent系统的query改写怎么做的,如果现在让你来训练,你怎么挑选哪些query,训练以后上线怎么评估效果,可以设计哪些指标8. 手撕mha,加一下causal mask,torch.triu的作用,除以dk的作用,为什么是更号dk,contiguous()的作用,为什么attention公式是这样的9. 有什么优化注意力计算的方法,讲讲deepspeed和flash attention