算法打工人小旺

2025-08-10 09:27 中山大学算法工程师发布于山东

关注

百度提前批一面：说下grpo训练loss怎么算

1.自我介绍1min
2.项目介绍，提到了grpo训练
3.说一下grpo的原理以及loss计算
（从策略梯度公式推导开始讲，以及grpo的组间reward怎么算的）
4.为什么需要加上kl约束
（防止更新不稳定，探索太远了）
5.grpo的kl是怎么计算的
（记得是k3-kl）
6.那如果你训练中大量出现全对全错的样本怎么办
（直接丢弃？）
7.如果全部丢弃，会带来什么问题？
（我说有论文表示丢弃没啥问题hhh）
8.面试官摇头，我说那要不再多rollout几个样本
9.怎么多rollout几个？你算一下如果是8张A100训练7B的模型，grpo可以rollout几个样本不炸显存？
10.coding torch写一下grpo的loss吧
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

全部评论

推荐最新楼层

04-08 09:27

门头沟学院 Java

不是背了多少,而是用了多少

先给核心结论：Agent面试的核心逻辑，永远是「基础概念验证→落地能力验证→思考深度验证」，所有的问题都围绕这三层展开，面试官不是看你背了多少概念，是看你有没有真的把Agent用起来、有没有解决过真实的落地问题。下面分6大模块，把Agent面试的高频问题、回答核心要点、加分技巧，全给大家讲透，建议收藏。一、基础概念必问题（面试开场第一道门槛，答错直接凉）这类题是面试的敲门砖，主要验证你对Agent有没有基础认知，答错了基本一面就挂，回答核心是「讲清本质，结合自己的理解，别只背概念」。你理解的AI Agent是什么？和大模型对话、RAG应用有什么本质区别？1. 核心定义：AI Agent是能感知...

Agent面试会问什么？

点赞评论收藏

分享

03-24 10:25

门头沟学院人工智能

百度文策大模型二面面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的？如果数据质量参差不齐会对 RAG 系统产生哪些影响？3.文档切分策略是如何设计的？chunk size 和 overlap 会如何影响召回质量和生成效果？4.如果用户的问题在知识库中确实存在，但系统经常没有召回正确文档，你会如何排查？5.如果检索到的文档是正确的，但模型最终生成的答案仍然是错误的，你会如何定位问题？6.实际系统中，如果召回结果经常语义相似但事实不相关，你会如何优化检索模块？7.如果一个问题需要跨多个文档的信息才能回答，你的 RAG 系统如何处理这种情况？8.在 RAG 系统中如何判断问题出在检索模块还是生成模块？9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构，这种设计对模型表达能力有什么作用？11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异？12.为什么推理阶段 KV Cache 只缓存 K 和 V，而不缓存 Q？13.RoPE 的核心原理是什么，它在长上下文场景下会遇到什么问题？14.instruction tuning 中多轮对话数据训练时，loss mask 应该如何设计？15.如果 SFT 之后模型在特定任务上能力增强，但通用能力明显下降，你会如何解决？16.LoRA 的低秩分解为什么能够逼近全参数微调的效果？17.如果 LoRA 的 rank 设置不合理，在模型表现上会出现什么现象？18.DPO 训练后模型输出明显变长，在实际系统中你会如何处理？19.如果对齐之后模型变得过于保守，经常拒绝回答，你会如何调整训练策略？20.大模型出现复读机现象通常由哪些因素导致？

点赞评论收藏

分享

03-30 08:20

门头沟学院算法工程师

高德agent组大模型应用算法凉经

发点面经攒攒人品～1. Query多个一级分类问题解决2.12 层Bert base参数量（0.1b）3. 为何不用轻量级大模型reranker模型4. 推理时batch size5. dpo训练是同时打压好坏样例的生成概率问题6.  Dpop的全称是什么7. 拷打项目8. leetcode 快排

倩雯雯：强烈推荐！这个笔记写得很清晰 http://github.com/AccumulateMore/CV

查看8道真题和解析

点赞评论收藏

分享

03-19 12:20

门头沟学院 Java

字节大模型Agent算法面经

被横向挂了，希望发出来对大家有帮助！1. 请介绍 Transformer 的结构组成及各部分作用2. 如何降低 Transformer 的计算复杂度？常见的稀疏注意力变体有哪些？3. LoRA 微调的原理是什么？秩 r 的选择会对模型表现产生什么影响？4. KV Cache 是什么？为什么能极大地提升推理速度？5. RAG 完整流程，构建向量检索库时如何处理时间衰减对召回的影响？6. 微调时的训练数据是怎么构建的？如何保证样本多样性和质量？7. 在 RAG+知识图谱的 Agent 系统中，知识图谱更新的机制是怎样的？如何保证实时性？8. 训练 LoRA 模型时，你是如何选择冻结层的？依据是什么？9. 在高并发查询 Agent 系统中，你会如何优化召回和生成阶段的延迟？10. 大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计？

查看10道真题和解析

点赞评论收藏

分享

04-07 19:21

北京市海淀区简明教育培训学校 Java

Agent面试高频问题

基础理论：什么是AI Agent？与传统AI的核心区别是什么？ 什么是ReAct框架？核心循环（Think-Act-Observe）如何实现？如何为Agent设计高效的动作空间（Action Space）？模型微调、提示工程与Agent算法设计是什么关系？架构与实现：MCP协议，它与A2A协议有什么区别？LangGraph等框架中，如何实现Agent的状态管理与节点级修正反馈？如何为长上下文任务设计Agent的Memory系统？Agent工具调用失败时，有哪些处理策略和降级方案？Agent的性能？线上数据如何回流反馈？

查看9道真题和解析

点赞评论收藏

分享

评论

1

6

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

33810次浏览 431人参与

# 大学生该如何认清当下的就业环境？ #

162188次浏览 886人参与

# 有哪些公司在面试时考察AICoding？ #

18911次浏览 347人参与

# 运营来爆料 #

98772次浏览 508人参与

# HR面都在聊什么？ #

13410次浏览 162人参与

# 美团开奖 #

407689次浏览 1805人参与

# 26届春招投递记录 #

3564次浏览 42人参与

# 百度工作体验 #

325326次浏览 2247人参与

# 想从事Agent应该学习哪些技术？ #

8264次浏览 279人参与

# 实习学到最有价值的工作习惯 #

69579次浏览 551人参与

# OPPO求职进展汇总 #

808915次浏览 5441人参与

# 校招生月薪1W算什么水平 #

143358次浏览 492人参与

# 你觉得什么岗位会被AI替代 #

57151次浏览 371人参与

# 从投递到OC，你用了多久 #

23405次浏览 238人参与

# 什么人最适合大厂？ #

12509次浏览 132人参与

# 父母问你工作找得怎么样，怎么回 #

22747次浏览 281人参与

# 哪些公司面试还在问八股？ #

13761次浏览 123人参与

373793次浏览 2921人参与

# 我与AI的日常 #

3252次浏览 16人参与

# 我的求职进度条 #

1111261次浏览 8034人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务