字节 一面 大模型算法 实习面经
有面试过同岗的朋友欢迎评论区交流
1. DPO 与 SFT 的区别:两者核心差异是什么?可以先做 DPO 再做 SFT 吗?为什么?
2. 把 DPO 用在“第一轮对话”,你会如何构建数据集?`Prompt`、`Chosen`、`Rejected` 具体来源是什么?
3. 多轮对话数据分布设计:单轮和多轮数据各占多少比例?这样配比的理由是什么?
4. DPO 多轮样本怎么采样:多轮样本如何采样?如何配比?
5. Reward Hacking现象:你怎么看待这个问题?怎么解决呢
1. DPO 与 SFT 的区别:两者核心差异是什么?可以先做 DPO 再做 SFT 吗?为什么?
2. 把 DPO 用在“第一轮对话”,你会如何构建数据集?`Prompt`、`Chosen`、`Rejected` 具体来源是什么?
3. 多轮对话数据分布设计:单轮和多轮数据各占多少比例?这样配比的理由是什么?
4. DPO 多轮样本怎么采样:多轮样本如何采样?如何配比?
5. Reward Hacking现象:你怎么看待这个问题?怎么解决呢
全部评论
相关推荐
03-15 23:11
南开大学 Java 牛客91882925...:慢慢来,别给自己那么大压力,天无绝人之路。学习中成长,这背景已经超越绝大多数牛友了。多面几次就好了,我第一次面试前睡都睡不好,不过面试官人还好,进行一会面试就注意力全在题上了。所以跟面试官关系也很大
点赞 评论 收藏
分享
查看9道真题和解析