阿里高德推荐算法实习一面面经

攒人品中,祝大家都能拿到满意的Offer!
1.实习介绍
2.奖励模型是按照生成式还是判别式训练的?
3.训练奖励模型的两个loss,为什么第二种比第一种好?
4.RLAIF有没有考虑用带反思模型的框架去解决?
5.论文介绍
6.开放问题
7.手撕:数组中连续的、非重复的、和最大的子数组
全部评论

相关推荐

不愿透露姓名的神秘牛友
04-23 10:48
点赞 评论 收藏
分享
牛客48784610...:深圳的变成录用进行中,这个是稳了吗,还没有收到邮件
点赞 评论 收藏
分享
评论
2
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务