B站二面凉经
📍面试公司:bilibili
💻面试岗位:大模型
❓面试问题:
1. 从理论上为什么用dpo
2. dpo的beta是什么意思
3. dpo训练不符合要求的时候怎么办
4. ppo的奖励稀疏化怎么办
5. dpo的做法上有什么难处,从数据和模型上来说
6. on-policy和off-policy
7. dpo的loss
#发面经攒人品##bilibili求职进展汇总#
💻面试岗位:大模型
❓面试问题:
1. 从理论上为什么用dpo
2. dpo的beta是什么意思
3. dpo训练不符合要求的时候怎么办
4. ppo的奖励稀疏化怎么办
5. dpo的做法上有什么难处,从数据和模型上来说
6. on-policy和off-policy
7. dpo的loss
#发面经攒人品##bilibili求职进展汇总#
全部评论
沾沾凉气,希望我别遇到这地狱难度😇
楼主敢面大模型岗就是勇士!respect
感觉在面PhD岗位,我本科不配了
奖励设计是大模型玄学,面官自己懂吗
感谢分享,避坑了!
Beta是调优重点啊,答上来已经很强了!
凉就凉吧,反正GPT能答这些题
DPO训练不符合要求?我也不符合B站要求

可惜了,害
相关推荐
昨天 16:05
门头沟学院 Java 点赞 评论 收藏
分享

点赞 评论 收藏
分享