1. PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?2. 为什么有了reward model还需要critic model?critic model作用是什么?3. 交叉熵和kl散度的联系和区别?PPO的kl散度可以改成交叉熵吗?分类任务可以用KL散度吗?4. GRPO的kl散度和PPO的kl散度区别?K1 K2 K3估计区别?5. rollout数量 batchsize数量和计算资源(卡的数量)有什么关系?线性?非线性?6. 真实采样数量一定等于rollout数量吗?7. 提到了拒绝采样,详细讲一下8. vLLM框架是怎么做推理加速的?