腾讯-26校招-大模型算法二面 1h

攒人品中,祝大家都能拿到满意的Offer!
 八股
1. 强化学习相关的方法
2. 对ppo的了解,grpo,dapo的了解,grpo可能有哪些劣势,ppo的value model为什么能够计算出平均的baseline奖励
3. grpo的rollout是多少,为什么不用连续的奖励
 coding
x求平方根
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 03-27 09:23 广东

相关推荐

牛客93169152...:可以发邮件,我停了三天没收到链接,发邮件问了一下,十分钟后就有了
点赞 评论 收藏
分享
UtopianYou...:这个简历排版真的不太行哦,去找免费的或者花点小钱,把排版弄整齐一点吧,看着舒服。
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务