RLHF常用PPO并以KL正则约束策略与参考模型的偏差
DPO跳过显式奖励模型,直接最小化偏好对比损失
RLHF后必须再做teacher forcing微调
RLAIF用另一模型产生偏好数据,降低人工标注成本
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题