淘天 AI Agent开发一面

1. 自我介绍

2. Transformer 里 Attention 的本质是什么，为什么它适合 Agent 场景

Attention 本质上是在做动态加权的信息选择，模型不是把所有上下文平均看，而是根据当前 query 去分配不同 token 的影响力。它的优势在于能处理长距离依赖，并且支持内容寻址，这对 Agent 场景很关键，因为 Agent 经常要从长历史、工具返回和外部知识里挑出当前最有用的信息。真正落地时，Attention 的问题不在“能不能看远”，而在“看得太多以后会不会被噪声拖偏”。

3. 在多轮对话 Agent 中，Attention 的局限性体现在哪些方面

局限性主要体现在三个地方：一是上下文长度有限，历史一长就不得不裁剪；二是注意力分配并不等于真正的任务相关性，模型可能被格式、位置或重复内容误导；三是纯 Attention 只能在已有上下文里选信息，没法天然解决外部检索、长期记忆和状态恢复。也就是说，Attention 适合做信息融合，但不适合单独承担任务记忆和运行时控制。

4. 简要介绍一下 SFT 的核心流程，以及数据集的构建策略

SFT 的核心流程就是先把目标任务的输入输出格式固定下来，再用高质量监督样本做行为对齐。数据构建时不能只追求数量，而要追求覆盖度、难度分层和噪声控制。一般会把样本分成基础指令、复杂推理、拒答样本、工具调用样本和格式约束样本几类，并且尽量让高价值样本占更大比例。SFT 的目标不是让模型“背答案”，而是让模型先学会按任务要求稳定工作。

5. PPO 和 DPO 在大模型对齐中的主要区别是什么，DPO 训练时有哪些注意事项

PPO 是基于奖励模型和策略梯度的优化方法，训练流程更重，对稳定性、采样和奖励建模要求都高；DPO 则是直接利用偏好对来做优化，省去了显式奖励模型训练，工程上更简单。DPO 训练时要特别注意偏好数据质量、正负样本顺序、长度偏差和偏好噪声，否则模型容易学到表面模式。实际项目里，DPO 往往更适合做偏好对齐的后半段，而不是从零解决全部对齐问题。

6. 用过 GRPO 吗，它和 DPO 的差别在哪里

GRPO 更强调组内相对优势，通常会把同一个输入下采样出来的多个候选放在一起比较，用相对表现来做更新；DPO 更像是直接对成对偏好做概率约束。前者对组采样质量和组内比较机制更敏感，后者对 pairwise 数据更友好。简单说，DPO 更直接，GRPO 更偏“同题多答后做相对优化”，在一些需要稳定比较多个候选的场景里会更合适。

7. 说一下 RAG，它是怎么提升生成质量的

RAG 的核心不是“检索 + 拼接”，而是把模型从纯参数记忆转成“参数记忆 + 外部证据”的混合生成。它通过召回相关文档，把当前问题所需的事实、背景和证据放进上下文里，降低幻觉概率，也让答案更可追溯。真正好的 RAG 不只是召回准，还要能控制切片粒度、排序质量、证据覆盖和最终引用一致性，否则检索到了也不一定能用好。

8. 如何评估一个 RAG 系统是否 work

不能只看最终回答像不像，得拆成多个层面看：检索召回率、证据命中率、答案事实一致性、引用准确率、长尾问题表现和端到端任务成功率。还要看坏 case，比如检索到了但排序不对、证据有用但被模型忽略、答案看起来对但引用错文档。真正上线时，RAG 的评估应该和业务目标绑定，比如客服场景看可解释性，知识问答看事实一致性，研究场景看覆盖和证据完整性。

9. 项目里微调 Qwen 时，训练阶段和 Loss 是怎么选的

如果是能力补齐，通常会先用 SFT 把格式和任务流程对齐，再根据业务目标决定是否进入偏好优化阶段。Loss 一般不会只看标准的交叉熵，还要考虑样本权重、长短样本平衡、拒答样本权重和特殊字段损失。比如抽取类任务会更关注结构化字段准确率，生成类任务更关注整体流畅性和事实一致性。选训练阶段的核心原则是：先让模型“会做”，再让模型“做得更符合业务偏好”。

10. Prompt 自动推荐模块用了哪些优化策略

Prompt 推荐不只是模板匹配，更重要的是根据任务意图、历史表现和模型反馈做动态选择。常见优化包括：对 prompt 做结构化拆分、把高频成功模板做 embedding 检索、对低质量提示做压缩和去冗余、对不同任务阶段做 prompt 分层。工程上还会把 prompt 版本、命中率和失败样本挂钩，持续做灰度和回放。真正有效的 prompt 系统，应该能随着场景变化自动迭代，而不是靠人工堆文案。