面试很难,还是要多多练习,攒人品中!1.讲一下为什么先cot后answer的情况下,越往后token的prob越高?2.用大模型蒸馏的cot很多噪声怎么办?3.对VLM做SFT,发现模型对文本信息更置信,看图片的时候反而会产生幻觉,怎么办?RL相关1. PPO中GAE的公式,如何递归计算每个token的优势?2. DPO的loss公式?3. GRPO和PPO有什么区别?GSPO和GRPO又有什么区别?4. RL中的熵塌缩和reward hacking遇到过吗?两个问题都有什么改进方法,最近有什么新论文提出了改进方法?5. 在组内采样类型的RL算法中,on-policy rollout不出正确答案怎么办?6. 知道Self-Distillation吗,为什么要做,最近这方面有哪些论文?7. RL过程中reward或者loss震荡严重,怎么办?