淘天 AI Agent开发 一面
1. 自我介绍
2. Transformer 里 Attention 的本质是什么,为什么它适合 Agent 场景
Attention 本质上是在做动态加权的信息选择,模型不是把所有上下文平均看,而是根据当前 query 去分配不同 token 的影响力。它的优势在于能处理长距离依赖,并且支持内容寻址,这对 Agent 场景很关键,因为 Agent 经常要从长历史、工具返回和外部知识里挑出当前最有用的信息。真正落地时,Attention 的问题不在“能不能看远”,而在“看得太多以后会不会被噪声拖偏”。
3. 在多轮对话 Agent 中,Attention 的局限性体现在哪些方面
局限性主要体现在三个地方:一是上下文长度有限,历史一长就不得不裁剪;二是注意力分配并不等于真正的任务相关性,模型可能被格式、位置或重复内容误导;三是纯 Attention 只能在已有上下文里选信息,没法天然解决外部检索、长期记忆和状态恢复。也就是说,Attention 适合做信息融合,但不适合单独承担任务记忆和运行时控制。
4. 简要介绍一下 SFT 的核心流程,以及数据集的构建策略
SFT 的核心流程就是先把目标任务的输入输出格式固定下来,再用高质量监督样本做行为对齐。数据构建时不能只追求数量,而要追求覆盖度、难度分层和噪声控制。一般会把样本分成基础指令、复杂推理、拒答样本、工具调用样本和格式约束样本几类,并且尽量让高价值样本占更大比例。SFT 的目标不是让模型“背答案”,而是让模型先学会按任务要求稳定工作。
5. PPO 和 DPO 在大模型对齐中的主要区别是什么,DPO 训练时有哪些注意事项
PPO 是基于奖励模型和策略梯度的优化方法,训练流程更重,对稳定性、采样和奖励建模要求都高;DPO 则是直接利用偏好对来做优化,省去了显式奖励模型训练,工程上更简单。DPO 训练时要特别注意偏好数据质量、正负样本顺序、长度偏差和偏好噪声,否则模型容易学到表面模式。实际项目里,DPO 往往更适合做偏好对齐的后半段,而不是从零解决全部对齐问题。
6. 用过 GRPO 吗,它和 DPO 的差别在哪里
GRPO 更强调组内相对优势,通常会把同一个输入下采样出来的多个候选放在一起比较,用相对表现来做更新;DPO 更像是直接对成对偏好做概率约束。前者对组采样质量和组内比较机制更敏感,后者对 pairwise 数据更友好。简单说,DPO 更直接,GRPO 更偏“同题多答后做相对优化”,在一些需要稳定比较多个候选的场景里会更合适。
7. 说一下 RAG,它是怎么提升生成质量的
RAG 的核心不是“检索 + 拼接”,而是把模型从纯参数记忆转成“参数记忆 + 外部证据”的混合生成。它通过召回相关文档,把当前问题所需的事实、背景和证据放进上下文里,降低幻觉概率,也让答案更可追溯。真正好的 RAG 不只是召回准,还要能控制切片粒度、排序质量、证据覆盖和最终引用一致性,否则检索到了也不一定能用好。
8. 如何评估一个 RAG 系统是否 work
不能只看最终回答像不像,得拆成多个层面看:检索召回率、证据命中率、答案事实一致性、引用准确率、长尾问题表现和端到端任务成功率。还要看坏 case,比如检索到了但排序不对、证据有用但被模型忽略、答案看起来对但引用错文档。真正上线时,RAG 的评估应该和业务目标绑定,比如客服场景看可解释性,知识问答看事实一致性,研究场景看覆盖和证据完整性。
9. 项目里微调 Qwen 时,训练阶段和 Loss 是怎么选的
如果是能力补齐,通常会先用 SFT 把格式和任务流程对齐,再根据业务目标决定是否进入偏好优化阶段。Loss 一般不会只看标准的交叉熵,还要考虑样本权重、长短样本平衡、拒答样本权重和特殊字段损失。比如抽取类任务会更关注结构化字段准确率,生成类任务更关注整体流畅性和事实一致性。选训练阶段的核心原则是:先让模型“会做”,再让模型“做得更符合业务偏好”。
10. Prompt 自动推荐模块用了哪些优化策略
Prompt 推荐不只是模板匹配,更重要的是根据任务意图、历史表现和模型反馈做动态选择。常见优化包括:对 prompt 做结构化拆分、把高频成功模板做 embedding 检索、对低质量提示做压缩和去冗余、对不同任务阶段做 prompt 分层。工程上还会把 prompt 版本、命中率和失败样本挂钩,持续做灰度和回放。真正有效的 prompt 系统,应该能随着场景变化自动迭代,而不是靠人工堆文案。
11. 如果一个 Agent 推理链路包含 3 个工具 + 高频请求,整体延迟较高,你会怎么优化
先拆链路,看延迟到底卡在模型、工具、网络还是排队。常见做法是并行化可并行工具、缩短上下文、压缩工具返回、提前缓存高频结果、对低价值步骤做降级或跳过。对高频请求还可以做请求合并、热点缓存和异步预取。真正要避免的是所有步骤串行硬跑,因为 Agent 链路一旦串起来,任何一个慢点都会放大到整体体验上。
12. 项目里的 Modular Agent 是怎么做多步规划的
通常不是让模型一次性把完整计划全吐出来,而是先做任务分解,再对每一步建立状态和约束。计划层会维护目标、子目标、依赖关系、已完成动作和待执行动作,执行层只负责当前一步。这样遇到失败时可以局部回退,不至于整个任务重来。多步规划最怕的是计划和执行混在一起,一旦中间出错,后面根本不知道该回到哪一步。
13. 项目
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.
查看3道真题和解析