首页 > 试题广场 >

在大型语言模型的三阶段训练流程中,哪一个阶段的主要目标是让只

[单选题]
在大型语言模型的三阶段训练流程中,哪一个阶段的主要目标是让只会“续写”文本的基座模型变为能理解并遵循人类指令格式的“对话助手”?
  • 预训练 (Pre-training)
  • 有监督微调 (Supervised Fine-Tuning, SFT)
  • 奖励模型训练 (Reward Model Training)
  • 基于人类反馈的强化学习 (RLHF)

这道题你会答吗?花几分钟告诉大家答案吧!