1. 介绍一下项目2. 多头注意力机制的计算复杂度是多少?3.LoRA 的核心思想是什么?4. GRPO 训练时 KL 散度控制得怎么样?5. SFT 阶段如何避免对padding token 计算 loss ?6.训练 SFT 模型时 loss 出现剧烈震荡,你是如何诊断并解决的?7. Transformer 中为何使用 LayerNorm 而非 BatchNorm ?8. Transformer 里LayerNorm 放在 Attention 前还是后?有什么区别?9. logprobs 在一致性奖励中起什么作用?