26秋招蚂蚁大模型算法一面
1.PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?
2.为什么有了reward model还需要critic model?critic model作用是什么?
3.交叉熵和kl散度的联系和区别?PPO的kl散度可以改成交叉熵吗?分类任务可以用KL散度吗?
4.GRPO的kl散度和PPO的kl散度区别?K1 K2 K3估计区别?
5.rollout数量 batchsize数量和计算资源(卡的数量)有什么关系?线性?非线性?
6.真实采样数量一定等于rollout数量吗?
7.提到了拒绝采样,详细讲一下
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.你们有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
11.vLLM框架是怎么做推理加速的?
2.为什么有了reward model还需要critic model?critic model作用是什么?
3.交叉熵和kl散度的联系和区别?PPO的kl散度可以改成交叉熵吗?分类任务可以用KL散度吗?
4.GRPO的kl散度和PPO的kl散度区别?K1 K2 K3估计区别?
5.rollout数量 batchsize数量和计算资源(卡的数量)有什么关系?线性?非线性?
6.真实采样数量一定等于rollout数量吗?
7.提到了拒绝采样,详细讲一下
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.你们有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
11.vLLM框架是怎么做推理加速的?
全部评论
相关推荐
11-27 10:04
门头沟学院 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享