美团——大模型应用算法(一、二面)
一面:
项目拷打
八股:
GRPO对比PPO
GRPO的问题、哪些算法解决它的问题
ReAct框架介绍
ReAct和Plan-and-Excute 对处理长上下文有什么优劣势
大模型有哪些技术设计让他能够处理更长的上下文
代码考核:
每k个链表反转
二面
项目拷打
八股:
GRPO介绍
比较不同强化学习算法的优缺点
强化学习训练有遇到什么挑战吗
奖励之间做平衡有什么经验吗?
分阶段奖励训练有尝试过吗?
代码考核:
验证完全二叉树的完备性。
项目拷打
八股:
GRPO对比PPO
GRPO的问题、哪些算法解决它的问题
ReAct框架介绍
ReAct和Plan-and-Excute 对处理长上下文有什么优劣势
大模型有哪些技术设计让他能够处理更长的上下文
代码考核:
每k个链表反转
二面
项目拷打
八股:
GRPO介绍
比较不同强化学习算法的优缺点
强化学习训练有遇到什么挑战吗
奖励之间做平衡有什么经验吗?
分阶段奖励训练有尝试过吗?
代码考核:
验证完全二叉树的完备性。
全部评论
相关推荐
查看14道真题和解析 点赞 评论 收藏
分享
02-27 12:37
上海大学 人工智能 点赞 评论 收藏
分享
02-20 12:25
长春工程学院 Java 点赞 评论 收藏
分享
查看6道真题和解析 点赞 评论 收藏
分享