蚂蚁大模型应用 一面
1. PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?
2. 为什么有了reward model还需要critic model?critic model作用是什么?
3. 交叉熵和kl散度的联系和区别?PPO的kl散度可以改成交叉熵吗?分类任务可以用KL散度吗?
4. GRPO的kl散度和PPO的kl散度区别?K1 K2 K3估计区别?
5. rollout数量 batchsize数量和计算资源(卡的数量)有什么关系?线性?非线性?
6. 真实采样数量一定等于rollout数量吗?
7. 提到了拒绝采样,详细讲一下
8. vLLM框架是怎么做推理加速的?
2. 为什么有了reward model还需要critic model?critic model作用是什么?
3. 交叉熵和kl散度的联系和区别?PPO的kl散度可以改成交叉熵吗?分类任务可以用KL散度吗?
4. GRPO的kl散度和PPO的kl散度区别?K1 K2 K3估计区别?
5. rollout数量 batchsize数量和计算资源(卡的数量)有什么关系?线性?非线性?
6. 真实采样数量一定等于rollout数量吗?
7. 提到了拒绝采样,详细讲一下
8. vLLM框架是怎么做推理加速的?
全部评论
相关推荐
点赞 评论 收藏
分享