首页 > 试题广场 >

在指令微调阶段,相比SFT(监督微调),RLHF的主要优化目

[单选题]
在指令微调阶段,相比SFT(监督微调),RLHF的主要优化目标是?
  • 最小化预测词分布与人类标注的KL散度
  • 最大化模型输出的人类偏好奖励信号
  • 降低训练数据的标注成本
  • 提高Few-shot学习能力
RLHF 最大化模型输出的人类偏好奖励信号
发表于 2026-04-10 21:56:38 回复(0)