首页 > 试题广场 >

以下哪些是RLHF训练流程中可能遇到的实际问题?

[不定项选择题]
以下哪些是RLHF训练流程中可能遇到的实际问题?
  • 奖励黑客(Reward Hacking)
  • 模式坍塌(Mode Collapse)
  • KL散度惩罚系数难以调优
  • 预训练数据不足
RLHF:奖励,模型坍塌,KL散度
发表于 2026-04-10 22:17:47 回复(0)