字节大模型算法实习一面 45min

攒人品中!
1.dpo 和 sft 的区别,先 dpo 后 sft 可以么
2.如果把 DPO 用在“第一轮对话”,你会怎么做数据集?prompt、3.chosen/rejected 你打算怎么来
4.多轮对话的数据分布你会怎么设计:单轮和多轮各占多少,为什么这么配
5.具体到 DPO 数据,多轮样本你会怎么采样/怎么配比
6,reward hacking 你怎么看?一般怎么防,怎么兜底
全部评论
宝子,你这篇面经很有价值诶,感谢分享!!我私信你啦,你看看~
点赞 回复 分享
发布于 03-12 14:30 北京

相关推荐

评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务