美团——大模型应用算法(一、二面)

一面:
项目拷打
八股:
GRPO对比PPO
GRPO的问题、哪些算法解决它的问题
ReAct框架介绍
ReAct和Plan-and-Excute 对处理长上下文有什么优劣势
大模型有哪些技术设计让他能够处理更长的上下文

代码考核:
每k个链表反转

二面
项目拷打

八股:
GRPO介绍
比较不同强化学习算法的优缺点
强化学习训练有遇到什么挑战吗
奖励之间做平衡有什么经验吗?
分阶段奖励训练有尝试过吗?

代码考核:
验证完全二叉树的完备性。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务