网易大模型算法实习一面面经

首先是自我介绍
然后是面试官提问,大概问项目,以及设计,主要问的都是比较发散性的问题:
1.问项目的数据集构建和细节
2.分类模型微调前如果比较确定,但sft后可能会把概率输出变得不那么确定了,你觉得是什么导致的
3.讲一讲奖励模型的训练,奖励模型的奖励是怎么来的
4.是否了解过强化学习,讲一讲on-policy和off-policy不同和优缺点
5.为什么sft和rl在post-train中可能需要轮着来
最后是代码手撕:零钱兑换
全部评论

相关推荐

02-25 19:38
门头沟学院 Java
点赞 评论 收藏
分享
评论
点赞
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务