字节 一面 大模型算法 实习面经

有面试过同岗的朋友欢迎评论区交流
1.  DPO 与 SFT 的区别:两者核心差异是什么?可以先做 DPO 再做 SFT 吗?为什么?
2.  把 DPO 用在“第一轮对话”,你会如何构建数据集?`Prompt`、`Chosen`、`Rejected` 具体来源是什么?
3.  多轮对话数据分布设计:单轮和多轮数据各占多少比例?这样配比的理由是什么?
4.  DPO 多轮样本怎么采样:多轮样本如何采样?如何配比?
5.  Reward Hacking现象:你怎么看待这个问题?怎么解决呢
全部评论

相关推荐

评论
1
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务