首页 > 试题广场 >

在RLHF流程中,奖励模型(Reward Model)的训练

[单选题]
在RLHF流程中,奖励模型(Reward Model)的训练数据来源是什么?
  • 模型的预训练语料
  • 人类标注者对模型输出的偏好排序对比数据
  • 自动生成的正确答案与错误答案对
  • 互联网爬取的评论和评分数据

这道题你会答吗?花几分钟告诉大家答案吧!