百度 大模型后训练 一面

📍面试公司:百度 文心一言

🕐面试时间:2026.03.18

💻面试岗位:大模型RL后训练

❓面试问题:

  1. 自我介绍,教育背景,项目经历
  2. 项目介绍,基于大语言模型的信号灯控制,问题是什么,如何结合熵,怎么评测,指标结果如何
  3. 强化学习理论内容,trust-range和PPO的关系
  4. PPO是off-policy or on-policy? on-policy
  5. 为什么会有importance sampling,采样的策略模型和要训练的策略模型有偏差,重要性采样加以修正
  6. PPO的clip在优势A 正/负时 限制上/下届,A为正限制上届,A为负限制下届
  7. PPO的损失函数怎么计算的?广义优势估计是怎么计算?GAE中lambda的作用,该值大小和GAE 方差/偏差的关系
  8. GRPO的损失计算,在序列级别的损失上,损失如何给到每一个token上?序列级别平均 或 批次级别平均
  9. 其它GRPO变体?DAPO,GSPO,GFPO等
  10. 分布式训练中,优化器/梯度/模型参数占用的显存比例,FSDP和DeepSpeed的Zero-1/2/3
  11. Agentic RL
  12. 代码手撕:二叉树的层次遍历,如何记录每个节点在第几层?

🙌面试感想:

  1. leetcode刷少了,非递归方式没有整出来,节点第几层的问题没有做出来
#发面经攒人品#
全部评论
看着总结的不错呀
1 回复 分享
发布于 03-22 19:33 北京
兄弟是官网投的吗 我投了一周了没一点动静
点赞 回复 分享
发布于 03-19 10:12 湖北

相关推荐

04-08 15:10
门头沟学院 Java
攒攒人品!有面试过同岗的朋友欢迎评论区交流1.实习拷打2.这个方案有没有考虑过在单 Agent 里面继续丰富它的 tool?3.单 Agent 和多 Agent 这两条路线,你们当时是怎么考虑的?为什么最后选择了多 Agent?4.如果模型自己思考并自主选择调用什么工具、执行什么操作,这种方式有什么问题?5.Agent 可以自主决定要不要调用工具;如果不需要就结束整个 ReAct 循环。那按这个逻辑,理论上是不是不需要额外做 Agent 编排/流程设计?6.刚刚提到的那个基于业务知识库的RAG系统,你们是怎么搭建的?7.召回是基于向量相似度做的吗?还是基于 embedding 模型,或者别的方式?8.我听到这里的 TopK,是不是一个向量检索相关的概念?因为你刚刚提到了向量数据库,是吗?9.在这个项目里,你觉得自己做得比较好,或者最有挑战的一件事是什么?10.刚刚提到这个场景涉及多 Agent 的综合调用,是吗?11.如果是在同一个业务领域里,为什么不考虑做成单 Agent,让模型自主思考后再去调用?12.既然 Tool 背后本质上就是 RPC 接口,那不能统一封装后交给同一个 Agent 内部去调度吗?13.你们这个检索/召回方案里,评价指标具体怎么看?14.你们拆成多 Agent 之后,链路失败或局部失败时怎么处理?15.多 Agent 场景下,上下文传递为什么要用 json / slot 这类结构化方式?16.如果 Tool 本身都能统一封装,为什么还要按业务拆 Agent?17.你在线上项目里是怎么权衡响应时间和效果的?手撕:单词拆分
查看17道真题和解析
点赞 评论 收藏
分享
> 无意中接到了后端开发的主动邀约,我最近主要在准备前端开发,而且没有正式的做过后端开发,但还是接收了面试。面试主要考察计算机基础,没问后端八股,所以居然基本上答出来了自我介绍研二在读,主要技术栈是前端开发(熟悉Vue / 入门React),跨平台开发(了解Electron / 入门Flutter),和 Agent 开发(了解),常用语言 TypeScript / Python。之前都在准备前端面试,意外得到了后端面试邀约,因为未来有走全栈 / Agent开发的计划,所以斗胆参加了。问答1. 介绍 TCP 协议的连接和断开过程,为什么断开要进行 4 次挥手2. TCP 协议在完成四次挥手后是直接断开吗,要等待多久才断开3. 介绍计算机网络七层协议,为什么要分层4. 进程间通信有哪些方式5. 介绍死锁代码题1. 有 $n+1$ 个数,它们在范围 $[1, n]$,仅有一个重复的数,在 $O(n)$ 时间复杂度,$O(1)$ 空间复杂度内找出这个数2. 股票买卖时机,给定一支股票(T+1交易规则)的 $n$ 天的价格序列,买卖两次(卖出当天不能再买入),求最大盈利3. 给定序列,求最长上升子序列的长度和对应的子序列反问1. 部门的技术栈答:Golang2. 我之前主要准备的是前端开发,但是在 AI 时代对前端的未来比较悲观,未来准备走全栈开发或 Agent 开发。我比较纠结是接受前端开发的转正实习,还是准备全栈和 Agent 项目,未来找正式工作直接投递。您能从过来人的角度给我一些建议吗?答:(没有正面回答)主要是要确保掌握好相关理论基础,大厂对基础比较看重,工作中可能用到
查看10道真题和解析
点赞 评论 收藏
分享
评论
3
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务