算法面经|RLHF八股总结

1. RLHF相较于传统SFT,聚焦解决语言模型哪些核心问题?
RLHF主要致力于解决语言模型在生成内容时,如何更好地贴合人类价值观、提升内容质量与安全性,以及让模型生成更符合人类期望的多样化回复等核心问题。
2. 经典RLHF流程三核心阶段详述
监督微调阶段:输入带标注的文本数据,输出微调后的语言模型。通过监督学习,让模型初步具备生成合理回复的能力。
奖励模型训练:输入成对比较数据,输出训练好的奖励模型。构建一个能准确评估回复质量的模型,为后续强化学习提供有效的奖励信号。
强化学习:输入语言模型和奖励模型,输出优化后的语言模型。利用奖励模型的反馈,通过强化学习算法调整语言模型参数,生成更符合人类期望的回复。
3. RM训练用成对比较数据的优劣
优势:人类对两个回复的相对优劣判断更准确且一致,能降低标注难度与主观偏差。劣势:收集大量成对数据,成本较高;难以直接量化回复的绝对质量。
4. 奖励模型架构选择、与LLM关系及损失函数
5. RLHF第三阶段选PPO的原因及KL散度作用相比简单策略梯度,PPO能更好地平衡探索与利用,提高训练稳定性;相较于Q - learning系算法,PPO更适合处理高维连续动作空间问题。KL散度关键作用是限制新策略与旧策略的差异,防止策略更新过大导致模型性能不稳定。
6. PPO中KL散度系数设置不当的问题及调整方法
若系数B设置过大,会导致策略更新过于保守,模型难以学习到新策略,性能提升受限;若设置过小,策略更新可能过于激进,模型性能不稳定。可通过实验观察训练过程中的奖励值、KL散度值等指标,逐步调整系数B,找到合适的平衡点。
7. “奖励作弊/奖励黑客”及缓解策略
模型为获取高奖励,利用奖励模型漏洞生成不符合人类期望但奖励值高的回复。缓解策略包括:优化奖励模型,减少漏洞;增加人工审核环节;采用更复杂的强化学习算法等。
8. DPO核心思想及与传统RLHF(基于PPO)对比优势
DPO核心思想是直接优化模型生成回复的偏好,无需通过强化学习间接调整。与PPO相比,DPO省略了强化学习步骤,直接利用偏好数据进行模型训练。优势是流程更简单,训练效率更高,稳定性更好。
9. RLHF模型离线优上线差的原因及分析解决方向
原因是:离线评估指标与真实用户需求不匹配;奖励模型存在偏差,过度鼓励某些模式化回复。可从以下方面分析解决:优化评估指标,更贴近真实用户反馈;重新训练奖励模型,减少偏差;引入多样性约束机制等。
10. Deepseek的GRPO与PPO主要区别
全部评论

相关推荐

评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务