首页 > 试题广场 >

SFT 和对齐（RLHFDPOIPOPPO）原理差在哪

[问答题]

SFT 和对齐（RLHF/DPO/IPO/PPO）原理差在哪？在不同数据与资源条件下，你会怎么选路线。

Raymond_030927头像

Raymond_030927

预训练模型还不会回答问题，则使用SFT做监督微调，现在会回答问题了，就要看数据如果数据的风格偏少，就需要做AI数据蒸馏如果不少有算力就使用RLHF强化自主学习，没算力就离线DPO/IPO

发表于 2026-03-14 06:18:53 回复(0)

Jerryyyytse头像

Jerryyyytse

supervised fine-tuning: 在有标准答案的指令数据上做交叉熵模仿学习(question-answer pair) alignment: 在有人类偏好的反馈上优化行为，使模型更符合人意与安全

发表于 2026-04-20 10:12:08 回复(0)

提交观点

问题信息

来自：大模型应用-牛客面经八股

难度：

2条回答 12收藏 334浏览

热门推荐

相关试题

安全合规你是怎么做的？幻觉检测/事...

评论(0) 来自大模型应用-牛客面经八股
为什么只做 SFT 往往对不齐人类...

评论(1) 来自大模型应用-牛客面经八股
MoE 怎么玩更稳？门控、路由、稀...

评论(0) 来自大模型应用-牛客面经八股
当检索或对齐效果翻车时，你会用哪些...

评论(0) 来自大模型应用-牛客面经八股
向量库工程落地你遇到过哪些关键点？...

评论(0) 来自大模型应用-牛客面经八股

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号