美团 AI Agent 开发 一面

1.说一下 Transformer 的底层结构吧

Transformer 的核心是用自注意力代替传统序列模型里的递归结构。一个标准模块通常包含多头自注意力、前馈网络、残差连接和 LayerNorm。自注意力负责让每个 token 和其他 token 直接交互,前馈网络负责做非线性变换,残差和归一化负责保证深层训练稳定。它真正厉害的地方不是结构复杂,而是信息传播路径短,长距离依赖更容易建模,并且天然适合并行训练。

2. Transformer 为什么用了 LayerNorm 呢

因为 BatchNorm 依赖 batch 维度上的统计量,但 NLP 任务里句子长度不一致,线上推理时 batch 也经常不稳定,甚至就是单条请求,这时候 BatchNorm 的效果会比较差。LayerNorm 是对单个样本内部做归一化,不依赖 batch,更适合变长序列和自回归生成。简单说,Transformer 用 LayerNorm 主要是为了训练和推理都更稳定。

3. 描述 Transformer Decoder 的完整解码流程

Decoder 的解码本质上是一个自回归过程。先把已有输入 token 做 embedding 和位置编码,然后进入 masked self-attention,这一步只能看当前位置之前的信息,不能看未来。经过多层 attention 和前馈网络后,拿最后一个位置的 hidden state 过线性层和 softmax,得到下一个 token 的概率分布,再按照 greedy、beam search 或采样策略选出 token,拼回输入继续往后生成。线上推理时一般会配合 KV Cache,把历史的 K、V 缓存起来,不然每生成一个 token 都全量重算,代价会很高。

4. PPO 和 DPO 在对齐阶段的主要区别是什么

PPO 是典型的强化学习对齐路线,需要 reward model 给奖励,再用策略优化去更新模型,链路长、训练复杂,但表达能力更强。DPO 更直接,它不显式做强化学习那套采样和策略更新,而是把偏好对齐转成一个对比学习问题,让模型直接偏向 chosen、远离 rejected。工程上 DPO 往往更简单更稳,PPO 则更灵活,但调参和训练成本更高。

5. 在进行 DPO 训练时,通常有哪些关键注意事项?是否了解过 GRPO

DPO 最关键的不是公式,而是偏好数据质量。chosen 和 rejected 如果差异太小,模型学不到东西;如果 rejected 太差,又容易学到非常表面的偏好。另一个点是 reference model 不能选得太离谱,不然训练过程会很飘。至于 GRPO,我的理解是它不是只看单对偏好,而是利用组内多个候选之间的相对关系来学习,这样信息利用率更高,在排序和多候选比较场景里会更自然。

6. KL 散度的数学意义是什么?在模型对齐中起什么作用

KL 散度可以理解成衡量两个概率分布之间差异的指标。在模型对齐里,通常用它来约束当前策略不要偏离原始模型太远。尤其在 PPO 里很常见,如果没有 KL 约束,模型可能为了追求更高奖励把原来的语言能力和稳定性都弄坏了。所以 KL 的作用不是提升性能本身,而是控制更新幅度,让模型在“往偏好方向变好”和“别跑偏太多”之间取得平衡。

7. MoE 架构的具体实现原理是什么?路由 Router 是如何工作的

MoE 的核心思想是把一个很大的前馈网络拆成多个专家,每次不是所有专家都参与,而是只激活少量专家。这样总参数可以做得很大,但单次计算量不会线性增长。Router 会根据 token 的表示给不同专家打分,然后选 top-k 专家去处理,再把结果加权汇总。MoE 真正难的地方在于负载均衡,如果 Router 总把 token 分给少数几个专家,其余专家就学不到有效分工,所以训练里一般会加负载均衡损失。

8. 如何构建评估体系来验证一个 RAG 系统是否真正 Work

RAG 评估不能只看最终答案像不像,还得拆链路看。首先要评估召回对不对,也就是相关文档有没有被找回来;其次要看重排是否有效,关键证据有没有排到前面;最后才是生成答案是否基于证据、有没有胡编。实际做法一般是准备一套带标准问题、标准答案和标准证据的评测集,分别看 Recall、MRR、答案正确率、引用一致性和拒答能力。因为很多系统看起来会答,其实不是检索起作用,而是模型自己在补。

9. 在 Modular Agent 中,多步规划是如何实现的

多步规划不能只靠模型一句“我先做什么再做什么”,更稳的做法是把任务拆成状态机。先根据用户目标生成阶段计划,每一步都要有输入、输出、依赖和结束条件;执行时根据工具返回结果不断更新状态,如果发现信息不足或者路径走错,就触

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务