1. GRPO 算是 on-policy 还是 off-policy?为啥?2. GRPO 用的数据不是最新的,为什么还算 on-policy?它的 buffer 是怎么回事?3. 重要性采样是干嘛的?公式长啥样?能解释一下吗?4. GSPO 和 DAPO 各自解决了什么问题?用了什么方法?5. 强化学习里的熵崩溃是啥意思?怎么解决?有必要解决吗?6. 熵崩溃是咋引起的?7. 熵崩溃和 reward hacking 有关系吗?8. 看过 DeepSeek 的技术报告吗?它在推理速度上做了哪些优化?或者说,模型层面有哪些加速推理的技巧?9. MLA 是怎么回事?能加速推理吗?10. Qwen3 ...