首页 > 试题广场 >

SFT 和对齐(RLHFDPOIPOPPO)原理差在哪

[问答题]
SFT 和对齐(RLHF/DPO/IPO/PPO)原理差在哪?在不同数据与资源条件下,你会怎么选路线。
预训练模型还不会回答问题,则使用SFT做监督微调,现在会回答问题了,就要看数据 如果数据的风格偏少,就需要做AI数据蒸馏 如果不少有算力就使用RLHF强化自主学习, 没算力就离线DPO/IPO
发表于 2026-03-14 06:18:53 回复(0)
supervised fine-tuning: 在有标准答案的指令数据上做交叉熵模仿学习(question-answer pair) alignment: 在有人类偏好的反馈上优化行为,使模型更符合人意与安全
发表于 2026-04-20 10:12:08 回复(0)