美团 AI Agent 开发一面

1.说一下 Transformer 的底层结构吧

Transformer 的核心是用自注意力代替传统序列模型里的递归结构。一个标准模块通常包含多头自注意力、前馈网络、残差连接和 LayerNorm。自注意力负责让每个 token 和其他 token 直接交互，前馈网络负责做非线性变换，残差和归一化负责保证深层训练稳定。它真正厉害的地方不是结构复杂，而是信息传播路径短，长距离依赖更容易建模，并且天然适合并行训练。

2. Transformer 为什么用了 LayerNorm 呢

因为 BatchNorm 依赖 batch 维度上的统计量，但 NLP 任务里句子长度不一致，线上推理时 batch 也经常不稳定，甚至就是单条请求，这时候 BatchNorm 的效果会比较差。LayerNorm 是对单个样本内部做归一化，不依赖 batch，更适合变长序列和自回归生成。简单说，Transformer 用 LayerNorm 主要是为了训练和推理都更稳定。

3. 描述 Transformer Decoder 的完整解码流程

Decoder 的解码本质上是一个自回归过程。先把已有输入 token 做 embedding 和位置编码，然后进入 masked self-attention，这一步只能看当前位置之前的信息，不能看未来。经过多层 attention 和前馈网络后，拿最后一个位置的 hidden state 过线性层和 softmax，得到下一个 token 的概率分布，再按照 greedy、beam search 或采样策略选出 token，拼回输入继续往后生成。线上推理时一般会配合 KV Cache，把历史的 K、V 缓存起来，不然每生成一个 token 都全量重算，代价会很高。

4. PPO 和 DPO 在对齐阶段的主要区别是什么

PPO 是典型的强化学习对齐路线，需要 reward model 给奖励，再用策略优化去更新模型，链路长、训练复杂，但表达能力更强。DPO 更直接，它不显式做强化学习那套采样和策略更新，而是把偏好对齐转成一个对比学习问题，让模型直接偏向 chosen、远离 rejected。工程上 DPO 往往更简单更稳，PPO 则更灵活，但调参和训练成本更高。

5. 在进行 DPO 训练时，通常有哪些关键注意事项？是否了解过 GRPO

DPO 最关键的不是公式，而是偏好数据质量。chosen 和 rejected 如果差异太小，模型学不到东西；如果 rejected 太差，又容易学到非常表面的偏好。另一个点是 reference model 不能选得太离谱，不然训练过程会很飘。至于 GRPO，我的理解是它不是只看单对偏好，而是利用组内多个候选之间的相对关系来学习，这样信息利用率更高，在排序和多候选比较场景里会更自然。

6. KL 散度的数学意义是什么？在模型对齐中起什么作用

KL 散度可以理解成衡量两个概率分布之间差异的指标。在模型对齐里，通常用它来约束当前策略不要偏离原始模型太远。尤其在 PPO 里很常见，如果没有 KL 约束，模型可能为了追求更高奖励把原来的语言能力和稳定性都弄坏了。所以 KL 的作用不是提升性能本身，而是控制更新幅度，让模型在“往偏好方向变好”和“别跑偏太多”之间取得平衡。

7. MoE 架构的具体实现原理是什么？路由 Router 是如何工作的

MoE 的核心思想是把一个很大的前馈网络拆成多个专家，每次不是所有专家都参与，而是只激活少量专家。这样总参数可以做得很大，但单次计算量不会线性增长。Router 会根据 token 的表示给不同专家打分，然后选 top-k 专家去处理，再把结果加权汇总。MoE 真正难的地方在于负载均衡，如果 Router 总把 token 分给少数几个专家，其余专家就学不到有效分工，所以训练里一般会加负载均衡损失。

8. 如何构建评估体系来验证一个 RAG 系统是否真正 Work

RAG 评估不能只看最终答案像不像，还得拆链路看。首先要评估召回对不对，也就是相关文档有没有被找回来；其次要看重排是否有效，关键证据有没有排到前面；最后才是生成答案是否基于证据、有没有胡编。实际做法一般是准备一套带标准问题、标准答案和标准证据的评测集，分别看 Recall、MRR、答案正确率、引用一致性和拒答能力。因为很多系统看起来会答，其实不是检索起作用，而是模型自己在补。