只要做了强化学习,就不再需要 SFT
奖励设计不合理可能导致策略偏移或奖励黑客问题
当领域知识不足时,可以考虑继续预训练或做领域预训练
仅靠 SFT 往往难以完全替代基于环境反馈的策略优化
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题