算法面经|RLHF八股总结

1. RLHF相较于传统SFT,聚焦解决语言模型哪些核心问题?
RLHF主要致力于解决语言模型在生成内容时,如何更好地贴合人类价值观、提升内容质量与安全性,以及让模型生成更符合人类期望的多样化回复等核心问题。
2. 经典RLHF流程三核心阶段详述
监督微调阶段:输入带标注的文本数据,输出微调后的语言模型。通过监督学习,让模型初步具备生成合理回复的能力。
奖励模型训练:输入成对比较数据,输出训练好的奖励模型。构建一个能准确评估回复质量的模型,为后续强化学习提供有效的奖励信号。
强化学习:输入语言模型和奖励模型,输出优化后的语言模型。利用奖励模型的反馈,通过强化学习算法调整语言模型参数,生成更符合人类期望的回复。
3. RM训练用成对比较数据的优劣
优势:人类对两个回复的相对优劣判断更准确且一致,能降低标注难度与主观偏差。劣势:收集大量成对数据,成本较高;难以直接量化回复的绝对质量。
4. 奖励模型架构选择、与LLM关系及损失函数
5. RLHF第三阶段选PPO的原因及KL散度作用相比简单策略梯度,PPO能更好地平衡探索与利用,提高训练稳定性;相较于Q - learning系算法,PPO更适合处理高维连续动作空间问题。KL散度关键作用是限制新策略与旧策略的差异,防止策略更新过大导致模型性能不稳定。
6. PPO中KL散度系数设置不当的问题及调整方法
若系数B设置过大,会导致策略更新过于保守,模型难以学习到新策略,性能提升受限;若设置过小,策略更新可能过于激进,模型性能不稳定。可通过实验观察训练过程中的奖励值、KL散度值等指标,逐步调整系数B,找到合适的平衡点。
7. “奖励作弊/奖励黑客”及缓解策略
模型为获取高奖励,利用奖励模型漏洞生成不符合人类期望但奖励值高的回复。缓解策略包括:优化奖励模型,减少漏洞;增加人工审核环节;采用更复杂的强化学习算法等。
8. DPO核心思想及与传统RLHF(基于PPO)对比优势
DPO核心思想是直接优化模型生成回复的偏好,无需通过强化学习间接调整。与PPO相比,DPO省略了强化学习步骤,直接利用偏好数据进行模型训练。优势是流程更简单,训练效率更高,稳定性更好。
9. RLHF模型离线优上线差的原因及分析解决方向
原因是:离线评估指标与真实用户需求不匹配;奖励模型存在偏差,过度鼓励某些模式化回复。可从以下方面分析解决:优化评估指标,更贴近真实用户反馈;重新训练奖励模型,减少偏差;引入多样性约束机制等。
10. Deepseek的GRPO与PPO主要区别
全部评论

相关推荐

一、面试现场最常让手写的代码(高频必背)1. 路径/轨迹规划基础- A* 或 JPS 伪代码(C++/Python)- RRT / RRT* 极简实现(必考)- 栅格地图路径搜索、碰撞检测逻辑2. 机器人运动学(必问)- 多自由度机械臂正运动学(DH + 齐次变换)- 数值逆运动学(阻尼最小二乘 DLS)- 雅可比矩阵计算、奇异值判断- 自碰撞检测逻辑(面向人形/双足/多关节)3. 最优化基础(岗位核心:姿态最优)- 简单二次规划 QP 伪代码- 梯度下降 / 牛顿法求解姿态最优目标函数- 带约束优化(关节限位、避障、姿态平滑)4. 基础避障算法- 人工势场法(APF)- 动态窗口法 DWA 思路 + 伪代码- 基于距离场的碰撞规避逻辑5. 轨迹平滑- 五次多项式轨迹插值- B 样条 / 贝塞尔曲线- 最小 jerk / 最小加速度轨迹优化二、岗位核心专项:全身规划 & 通过性(重点准备)1. 全身运动规划(Whole-Body Planning)- 基于 QP 的全身控制伪代码- 浮动基机器人动力学简化(能讲+能写公式代码)- 重心优化、零力矩点 ZMP 简化计算2. 通过性(Passability / Navigability)- 地形评估、可达区域判断- 姿态自适应调整代码逻辑(爬坡、越障、台阶)- 多约束下姿态最优求解流程3. 姿态最优求解- 目标函数:能耗最小、姿态平滑、重心最低- 约束:关节限、碰撞限、视野/任务约束- 调用 OSQP / NLOPT / IPOPT 等求解器的代码模板三、Learning-Based 规划(加分但必准备)面试官不问代码也会问思路,最好能写极简示例- 简单强化学习:DQN/PPO 极简网络结构- 模仿学习:行为克隆(BC)极简训练+推理代码- 学习预测:简单 LSTM/Transformer 状态预测伪代码四、工程化 & 框架能力(面试官非常看重)1. 规划框架设计(C++)- 规划器基类 + 派生结构(AStar/RRT/MPC)- 线程安全、数据队列、回调机制- 模块解耦:感知→地图→规划→控制2. 仿真相关代码- MuJoCo / Gazebo 环境交互- 机器人状态读取、轨迹下发、碰撞回调- 批量测试、自动化评估脚本(Python)3. 常用开源库使用(必须会写调用代码)- OMPL 规划器调用- NLOPT / OSQP / qpOASES 求解器- Pinocchio / KDL 运动学动力学- Eigen 矩阵运算、SVD、雅可比五、如果时间紧,优先准备这 8 套代码1. RRT*(必背)2. 数值逆运动学(DLS)3. 雅可比与冗余机器人零空间优化4. 五次多项式轨迹5. 简单 QP 姿态最优求解6. A* 路径规划7. 全身规划优化伪代码8. 学习型规划(BC/PPO)极简示例银河通用目前有需求,招算法职位,地点北京和深圳,有兴趣接触可以私聊
点赞 评论 收藏
分享
04-08 12:30
南京大学 Java
攒人品中~ 1. 什么是 AI Agent?它包含哪些核心组件?2. 详细讲解一下 ReAct 框架的原理3. LLM 是如何实现工具调用的?详细讲讲 Function Calling 的底层机制与执行流程4. 如何解决 Agent 工具调用时的“幻觉”(如编造 API、传错参数)?5. 为什么 Agent 经常会陷入“死循环”(Loop)?工程中如何兜底?6.  Agent 中如何实现长文本和长期记忆的管理与检索?7. Agent 的耗时过长,有哪些工程侧和基座侧的优化手段?8. RAG 系统和 Agent 结合的形态(Agentic RAG)与传统 RAG 有何核心区别?9. 当 Agent 需要调用多个工具,或者工具之间存在依赖关系时,调度引擎该如何设计?10. 如果 Agent 对话上下文窗口溢出或出现“记忆遗忘”(Lost in the Middle),该如何处理?11. Agent 在实际生产落地(例如自动化运维 AIOps、智能客服)中遇到的最大痛点是什么?如何解决?12. 什么是 Multi-Agent 系统?13. Agent 复杂任务分解的常用策略是什么?14. 什么是 Self-Reflection机制?在代码生成或故障排查 Agent 中如何应用?15. 如何设计 Agent 的流式输出以提升用户体验,特别是包含工具调用和多次大模型交互时?16. 开源模型的 Function Calling 能力较弱,如何通过微调或 Prompt 提升?18. Agent 的Planning模块有哪些主流的实现方式?(如 Step-by-step 与 Plan-and-execute 的对比)20. Agent 的推理(Reasoning)范式有哪些?(CoT / ToT / GoT 等)21. Agent 的记忆机制有哪些分类?(Short-term / Long-term / Working Memory)23. 在多智能体协同中,如何解决 Agent 之间的冲突或无限争议问题?24. Agent 开发中的系统安全风险有哪些?(如 Prompt Injection、沙箱逃逸、越权执行)如何防范?25. 做 Agent 开发,对底层 LLM 的能力(如指令遵循、长文本解析、结构化输出)有哪些具体要求27. DSPy 是什么?它在 Agent 提示词优化和流程构建上有什么优势?28. 基于强化学习的 Agent与传统基于 Prompt 的 Agent 有何区别?29. 如何让 Agent 具备自我学习或经验沉淀的能力?
查看25道真题和解析
点赞 评论 收藏
分享
评论
4
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务