字节大模型面经(一面)
工程类偏多🏀
1. dpo 和 sft 的区别,先 dpo 后 sft 可以么
2. 如果把 DPO 用在“第一轮对话”,你会怎么做数据集?prompt、chosen/rejected 你打算怎么来
3. 多轮对话的数据分布你会怎么设计:单轮和多轮各占多少,为什么这么配
4. 具体到 DPO 数据,多轮样本你会怎么采样/怎么配比(有没有什么坑)
5. reward hacking 你怎么看?一般怎么防,怎么兜底
⭕如果你现在:- 春招/秋招没方向- 简历没人看- 面试总挂- 不知道怎么准备,想求职算法岗的同学,需要进行高质量项目辅导,提升面试能力,☎欢迎后台联系。
1. dpo 和 sft 的区别,先 dpo 后 sft 可以么
2. 如果把 DPO 用在“第一轮对话”,你会怎么做数据集?prompt、chosen/rejected 你打算怎么来
3. 多轮对话的数据分布你会怎么设计:单轮和多轮各占多少,为什么这么配
4. 具体到 DPO 数据,多轮样本你会怎么采样/怎么配比(有没有什么坑)
5. reward hacking 你怎么看?一般怎么防,怎么兜底
⭕如果你现在:- 春招/秋招没方向- 简历没人看- 面试总挂- 不知道怎么准备,想求职算法岗的同学,需要进行高质量项目辅导,提升面试能力,☎欢迎后台联系。
全部评论
相关推荐
02-05 22:43
武汉大学 Java 点赞 评论 收藏
分享
查看8道真题和解析