算法打工人阿旺

2025-12-04 23:40 中山大学算法工程师发布于山东

关注

算法面经｜RLHF八股总结

1. RLHF相较于传统SFT，聚焦解决语言模型哪些核心问题？
RLHF主要致力于解决语言模型在生成内容时，如何更好地贴合人类价值观、提升内容质量与安全性，以及让模型生成更符合人类期望的多样化回复等核心问题。
2. 经典RLHF流程三核心阶段详述
监督微调阶段：输入带标注的文本数据，输出微调后的语言模型。通过监督学习，让模型初步具备生成合理回复的能力。
奖励模型训练：输入成对比较数据，输出训练好的奖励模型。构建一个能准确评估回复质量的模型，为后续强化学习提供有效的奖励信号。
强化学习：输入语言模型和奖励模型，输出优化后的语言模型。利用奖励模型的反馈，通过强化学习算法调整语言模型参数，生成更符合人类期望的回复。
3. RM训练用成对比较数据的优劣
优势：人类对两个回复的相对优劣判断更准确且一致，能降低标注难度与主观偏差。劣势：收集大量成对数据，成本较高；难以直接量化回复的绝对质量。
4. 奖励模型架构选择、与LLM关系及损失函数
5. RLHF第三阶段选PPO的原因及KL散度作用相比简单策略梯度，PPO能更好地平衡探索与利用，提高训练稳定性；相较于Q - learning系算法，PPO更适合处理高维连续动作空间问题。KL散度关键作用是限制新策略与旧策略的差异，防止策略更新过大导致模型性能不稳定。
6. PPO中KL散度系数设置不当的问题及调整方法
若系数B设置过大，会导致策略更新过于保守，模型难以学习到新策略，性能提升受限；若设置过小，策略更新可能过于激进，模型性能不稳定。可通过实验观察训练过程中的奖励值、KL散度值等指标，逐步调整系数B，找到合适的平衡点。
7. “奖励作弊/奖励黑客”及缓解策略
模型为获取高奖励，利用奖励模型漏洞生成不符合人类期望但奖励值高的回复。缓解策略包括：优化奖励模型，减少漏洞；增加人工审核环节；采用更复杂的强化学习算法等。
8. DPO核心思想及与传统RLHF（基于PPO）对比优势
DPO核心思想是直接优化模型生成回复的偏好，无需通过强化学习间接调整。与PPO相比，DPO省略了强化学习步骤，直接利用偏好数据进行模型训练。优势是流程更简单，训练效率更高，稳定性更好。
9. RLHF模型离线优上线差的原因及分析解决方向
原因是：离线评估指标与真实用户需求不匹配；奖励模型存在偏差，过度鼓励某些模式化回复。可从以下方面分析解决：优化评估指标，更贴近真实用户反馈；重新训练奖励模型，减少偏差；引入多样性约束机制等。
10. Deepseek的GRPO与PPO主要区别

全部评论

推荐最新楼层

03-31 00:26

广西大学算法工程师

小鹏大模型算法二面

1. 你做过的后训练项目里，最难解决的问题是什么2. SFT 数据你怎么构造，怎样避免模型被训练“油了”SFT 最大的问题不是量不够，而是数据风格太单一，最后把模型训成一种固定腔调：很会说、很圆滑、但信息密度低。构造数据时我一般会先按任务拆层，比如信息抽取、工具调用、复杂问答、拒答、安全、长文总结、结构化输出，每一层的目标都不一样。然后再做难度分桶，避免模型只见过简单样本。另一个关键点是负面风格清理。很多数据表面上没错，但非常模板化，比如“这是一个非常好的问题，让我们一步一步分析”，这类东西在少量数据里没问题，规模一大就会把模型带偏。所以我会专门清掉这种“高礼貌、低信息”的样本，保留更接近真实...

AI-Agent面试实战...

点赞评论收藏

分享

03-25 10:42

北京邮电大学算法工程师

人形机器人公司，（银河通用）面经

一、面试现场最常让手写的代码（高频必背）1. 路径/轨迹规划基础- A* 或 JPS 伪代码（C++/Python）- RRT / RRT* 极简实现（必考）- 栅格地图路径搜索、碰撞检测逻辑2. 机器人运动学（必问）- 多自由度机械臂正运动学（DH + 齐次变换）- 数值逆运动学（阻尼最小二乘 DLS）- 雅可比矩阵计算、奇异值判断- 自碰撞检测逻辑（面向人形/双足/多关节）3. 最优化基础（岗位核心：姿态最优）- 简单二次规划 QP 伪代码- 梯度下降 / 牛顿法求解姿态最优目标函数- 带约束优化（关节限位、避障、姿态平滑）4. 基础避障算法- 人工势场法（APF）- 动态窗口法 DWA 思路 + 伪代码- 基于距离场的碰撞规避逻辑5. 轨迹平滑- 五次多项式轨迹插值- B 样条 / 贝塞尔曲线- 最小 jerk / 最小加速度轨迹优化二、岗位核心专项：全身规划 & 通过性（重点准备）1. 全身运动规划（Whole-Body Planning）- 基于 QP 的全身控制伪代码- 浮动基机器人动力学简化（能讲+能写公式代码）- 重心优化、零力矩点 ZMP 简化计算2. 通过性（Passability / Navigability）- 地形评估、可达区域判断- 姿态自适应调整代码逻辑（爬坡、越障、台阶）- 多约束下姿态最优求解流程3. 姿态最优求解- 目标函数：能耗最小、姿态平滑、重心最低- 约束：关节限、碰撞限、视野/任务约束- 调用 OSQP / NLOPT / IPOPT 等求解器的代码模板三、Learning-Based 规划（加分但必准备）面试官不问代码也会问思路，最好能写极简示例- 简单强化学习：DQN/PPO 极简网络结构- 模仿学习：行为克隆（BC）极简训练+推理代码- 学习预测：简单 LSTM/Transformer 状态预测伪代码四、工程化 & 框架能力（面试官非常看重）1. 规划框架设计（C++）- 规划器基类 + 派生结构（AStar/RRT/MPC）- 线程安全、数据队列、回调机制- 模块解耦：感知→地图→规划→控制2. 仿真相关代码- MuJoCo / Gazebo 环境交互- 机器人状态读取、轨迹下发、碰撞回调- 批量测试、自动化评估脚本（Python）3. 常用开源库使用（必须会写调用代码）- OMPL 规划器调用- NLOPT / OSQP / qpOASES 求解器- Pinocchio / KDL 运动学动力学- Eigen 矩阵运算、SVD、雅可比五、如果时间紧，优先准备这 8 套代码1. RRT*（必背）2. 数值逆运动学（DLS）3. 雅可比与冗余机器人零空间优化4. 五次多项式轨迹5. 简单 QP 姿态最优求解6. A* 路径规划7. 全身规划优化伪代码8. 学习型规划（BC/PPO）极简示例银河通用目前有需求，招算法职位，地点北京和深圳，有兴趣接触可以私聊

点赞评论收藏

分享

04-02 10:47

重庆邮电大学 Java

联想-AI应用开发-面经

联想一面自我介绍rag文本分块策略你对AI agent的了解了解哪些框架在rag中如何构建上下文对话的能力关于大模型提示词的经验你知道哪些agent工具rag中的幻觉问题是这么处理的？你知道哪些向量数据库？在rag中，有哪些相似度的计算方法你知道最近两年有哪些agent框架吗谈谈你对openClaw的人生谈谈对agent Skills的认识什么是python闭包，你在项目中哪些场景中使用了的Java中如何处理内存泄漏风险反问：大概有几面：总共两面，后面一面是HR面多久能知道本次面试的结果：应该很快吧大概多久能入职：得HR才能知道（整个流程总共20分钟，无手撕代码环节。时间短的比拷打1个半小时，...

查看15道真题和解析

点赞评论收藏

分享

04-08 12:30

南京大学 Java

Agent开发八股合集真实面经总结版

攒人品中～ 1. 什么是 AI Agent？它包含哪些核心组件？2. 详细讲解一下 ReAct 框架的原理3. LLM 是如何实现工具调用的？详细讲讲 Function Calling 的底层机制与执行流程4. 如何解决 Agent 工具调用时的“幻觉”（如编造 API、传错参数）？5. 为什么 Agent 经常会陷入“死循环”（Loop）？工程中如何兜底？6.  Agent 中如何实现长文本和长期记忆的管理与检索？7. Agent 的耗时过长，有哪些工程侧和基座侧的优化手段？8. RAG 系统和 Agent 结合的形态（Agentic RAG）与传统 RAG 有何核心区别？9. 当 Agent 需要调用多个工具，或者工具之间存在依赖关系时，调度引擎该如何设计？10. 如果 Agent 对话上下文窗口溢出或出现“记忆遗忘”（Lost in the Middle），该如何处理？11. Agent 在实际生产落地（例如自动化运维 AIOps、智能客服）中遇到的最大痛点是什么？如何解决？12. 什么是 Multi-Agent 系统？13. Agent 复杂任务分解的常用策略是什么？14. 什么是 Self-Reflection机制？在代码生成或故障排查 Agent 中如何应用？15. 如何设计 Agent 的流式输出以提升用户体验，特别是包含工具调用和多次大模型交互时？16. 开源模型的 Function Calling 能力较弱，如何通过微调或 Prompt 提升？18. Agent 的Planning模块有哪些主流的实现方式？（如 Step-by-step 与 Plan-and-execute 的对比）20. Agent 的推理（Reasoning）范式有哪些？（CoT / ToT / GoT 等）21. Agent 的记忆机制有哪些分类？（Short-term / Long-term / Working Memory）23. 在多智能体协同中，如何解决 Agent 之间的冲突或无限争议问题？24. Agent 开发中的系统安全风险有哪些？（如 Prompt Injection、沙箱逃逸、越权执行）如何防范？25. 做 Agent 开发，对底层 LLM 的能力（如指令遵循、长文本解析、结构化输出）有哪些具体要求27. DSPy 是什么？它在 Agent 提示词优化和流程构建上有什么优势？28. 基于强化学习的 Agent与传统基于 Prompt 的 Agent 有何区别？29. 如何让 Agent 具备自我学习或经验沉淀的能力？

查看25道真题和解析

点赞评论收藏

分享

04-09 10:50

中国矿业大学深度学习

中兴AI实习生面试会问什么

是算法岗吗？

点赞评论收藏

分享

评论

4

7

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如果春招能重来，我会___ #

3503次浏览 33人参与

# 想做Agent可以做哪些岗位？ #

1620次浏览 22人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

42164次浏览 494人参与

# 这个offer值得去吗？ #

1384次浏览 21人参与

# 面试官拷打AI项目都会问什么？ #

1323次浏览 64人参与

# 除了线上，还能去哪些地方投简历 #

2596次浏览 30人参与

# 你觉得最好用的AI编程工具是_ #

681次浏览 22人参与

# mt对你说过最有启发的一句话 #

114996次浏览 869人参与

# 你会因为行情，降低找工作标准吗？ #

6117次浏览 73人参与

# 如何排解工作中的焦虑 #

323775次浏览 2778人参与

# 工作两年想退休了 #

272121次浏览 2057人参与

# 银行笔面经互助 #

195640次浏览 1324人参与

# 双非本科的出路是什么？ #

230610次浏览 1657人参与

# 你的第一家实习公司是什么档次？ #

73245次浏览 342人参与

# 你和你的mentor相处模式是__ #

5185次浏览 40人参与

# 你的mentor是什么样的人？ #

61477次浏览 794人参与

# 科大讯飞求职进展汇总 #

384149次浏览 3069人参与

# 实习第一天，你在干什么 #

3160次浏览 22人参与

# 哪些公司在招寒假实习？ #

95336次浏览 768人参与

# 秋招投递记录 #

416904次浏览 3281人参与

# 如果公司降薪，你会跳槽吗？ #

160754次浏览 950人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务