首页 > 试题广场 >

DPO(Direct Preference Optimiza

[单选题]
DPO(Direct Preference Optimization)相比RLHF+PPO的最大优势是什么?
  • 不需要任何人类偏好数据
  • 训练效果显著优于PPO
  • 跳过了显式奖励模型训练和强化学习阶段,直接用偏好数据优化策略
  • 支持在线数据收集和迭代优化

这道题你会答吗?花几分钟告诉大家答案吧!