八股文:SFT 训练时,数据规模和模型大小之间有什么 scaling law?除了 GRPO,还有哪些改进技术?比如 DPO、GSPO?怎么解决 DPO 和 GRPO 的 reward hacking 问题?DPO、GRPO 和 PPO 有啥区别?聊聊全参数微调和 PEFT?PEFT 的四种模式(addition, replace, LoRA, prompt tuning)分别讲讲? 手撕算法:链表题:判断链表有没有环,找出两个链表的相交节点。O(n) 时间复杂度内,找出数组中第 k 大的数。