首页 > 试题广场 >

关于训练范式的选择,下列哪些判断更合理?

[不定项选择题]
关于训练范式的选择,下列哪些判断更合理?
  • 只要做了强化学习,就不再需要 SFT
  • 奖励设计不合理可能导致策略偏移或奖励黑客问题
  • 当领域知识不足时,可以考虑继续预训练或做领域预训练
  • 仅靠 SFT 往往难以完全替代基于环境反馈的策略优化

这道题你会答吗?花几分钟告诉大家答案吧!