首页 > 试题广场 >

RLHF阶段使用的典型算法是

[单选题]
RLHF阶段使用的典型算法是
  • 监督式微调(SFT)
  • 最大化人类偏好得分
  • DQN (Deep Q-Network)
  • PPO (Proximal Policy Optimization)

这道题你会答吗?花几分钟告诉大家答案吧!