26秋招蚂蚁大模型算法一面

1.PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?
2.为什么有了reward model还需要critic model?critic model作用是什么?
3.交叉熵和kl散度的联系和区别?PPO的kl散度可以改成交叉熵吗?分类任务可以用KL散度吗?
4.GRPO的kl散度和PPO的kl散度区别?K1 K2 K3估计区别?
5.rollout数量 batchsize数量和计算资源(卡的数量)有什么关系?线性?非线性?
6.真实采样数量一定等于rollout数量吗?
7.提到了拒绝采样,详细讲一下
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.你们有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
11.vLLM框架是怎么做推理加速的?
全部评论

相关推荐

不愿透露姓名的神秘牛友
11-25 11:50
腾讯云智 后端 100000 本科其他
点赞 评论 收藏
分享
头像 会员标识
11-27 10:04
门头沟学院 Java
面了100年面试不知...:不可能,ai作弊的问答绝对很明显
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务