B站二面凉经

📍面试公司:bilibili
💻面试岗位:大模型
❓面试问题:
1. 从理论上为什么用dpo
2. dpo的beta是什么意思
3. dpo训练不符合要求的时候怎么办
4. ppo的奖励稀疏化怎么办
5. dpo的做法上有什么难处,从数据和模型上来说
6. on-policy和off-policy
7. dpo的loss
#发面经攒人品##bilibili求职进展汇总#
全部评论
沾沾凉气,希望我别遇到这地狱难度😇
点赞 回复 分享
发布于 昨天 13:54 山东
楼主敢面大模型岗就是勇士!respect
点赞 回复 分享
发布于 昨天 13:54 湖南
感觉在面PhD岗位,我本科不配了
点赞 回复 分享
发布于 昨天 13:54 上海
奖励设计是大模型玄学,面官自己懂吗
点赞 回复 分享
发布于 昨天 13:54 山东
感谢分享,避坑了!
点赞 回复 分享
发布于 昨天 13:53 陕西
Beta是调优重点啊,答上来已经很强了!
点赞 回复 分享
发布于 昨天 13:53 河南
凉就凉吧,反正GPT能答这些题
点赞 回复 分享
发布于 昨天 13:51 黑龙江
DPO训练不符合要求?我也不符合B站要求
点赞 回复 分享
发布于 昨天 13:51 山东
可惜了,害
点赞 回复 分享
发布于 昨天 12:58 广东

相关推荐

不愿透露姓名的神秘牛友
今天 09:40
点赞 评论 收藏
分享
昨天 17:50
门头沟学院 C++
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务