首页 > 试题广场 >

关于RLHF及替代技术,下列说法正确的是

[不定项选择题]
关于RLHF及替代技术,下列说法正确的是
  • RLHF常用PPO并以KL正则约束策略与参考模型的偏差
  • DPO跳过显式奖励模型,直接最小化偏好对比损失
  • RLHF后必须再做teacher forcing微调
  • RLAIF用另一模型产生偏好数据,降低人工标注成本

这道题你会答吗?花几分钟告诉大家答案吧!