1.MOE 原理,讲一下负载均衡以及有哪几种类型? 你能写一下公式吗?2.MOE 的 expert parallel 如何做的? 你用了 swift 参数怎么设置的,有 2 个 node 你如何分配你的训练参数?3.做 grpo 遇到熵崩没有?你是怎么理解的?如何解决的(clip higher 限制、小学习率)4.大模型容易 reward hacking,如何解决?你说训一个小模型,那小模型数据如何来?还有什么办法吗?5.VLLM prefix cache实现过吗? 讲一下你的理解6.在训练 grpo 时候应该更新rollout 的 mllm 吗?(ref model)7.手撕: transformers encoder