腾讯-26校招-大模型算法二面 1h
攒人品中,祝大家都能拿到满意的Offer!
八股
1. 强化学习相关的方法
2. 对ppo的了解,grpo,dapo的了解,grpo可能有哪些劣势,ppo的value model为什么能够计算出平均的baseline奖励
3. grpo的rollout是多少,为什么不用连续的奖励
coding
x求平方根
八股
1. 强化学习相关的方法
2. 对ppo的了解,grpo,dapo的了解,grpo可能有哪些劣势,ppo的value model为什么能够计算出平均的baseline奖励
3. grpo的rollout是多少,为什么不用连续的奖励
coding
x求平方根
全部评论
相关推荐
03-17 18:14
门头沟学院 智能驾驶系统工程师 点赞 评论 收藏
分享