字节日常实习-大模型一面-攒人品

继续来分享下之前的面经~欢迎友好讨论,信息共享
1. dpo 和 sft 的区别,先 dpo 后 sft 可以么
2. 如果把 DPO 用在“第一轮对话”,你会怎么做数据集?prompt、chosen/rejected 你打算怎么来
3. 多轮对话的数据分布你会怎么设计:单轮和多轮各占多少,为什么这么配
4. 具体到 DPO 数据,多轮样本你会怎么采样/怎么配比(有没有什么坑)
5. reward hacking 你怎么看?一般怎么防,怎么兜底
全部评论

相关推荐

对空六翼:你真幸运,碰见这么好的人,不像我,秋招的时候被室友骗进cx了
实习好累,可以辞职全力准...
点赞 评论 收藏
分享
03-16 11:07
南开大学 Java
牛马人的牛马人生:快手卡实习经历的
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务