美团智能体

1.简历
2.介绍 DeepResearch 几篇工作?主 Agent 和子 Agent 有什么区别,主要哪些子 agent?
3.RL tool 的 loss 有什么区别?
4.Reasoning 的 loss 有什么其他特点,介绍你知道的(think 和 nothink 的 loss)。
5.PPO、GRPO、DPO 区别。6.DAPO 了解多少,介绍创新点。
6.还有其他 GRPO 变体吗?介绍创新点。
7.手撕:rope,打开 llama github 源码的 rope 介绍和我实现的区别
总结:RL tool的loss忘了,只有这一个失误,然后喜提人才库
#面试问题记录#
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务