淘天 AI应用开发二面

1. Agent 和传统 workflow 的本质区别是什么，什么时候该选 Agent，什么时候不该选

传统 workflow 的核心是路径预定义，系统知道每一步做什么、怎么流转、失败后怎么回退，所以它更适合规则清晰、链路稳定、审计要求高的场景。Agent 的核心则是把部分决策权交给模型，让它在运行时决定下一步查什么、调什么工具、如何分解任务，因此更适合任务开放、输入噪声大、解法不唯一的场景。真正的分界线不在“有没有模型”，而在“是否允许运行时规划”。如果目标是工单分类、审批流转、固定字段抽取，workflow 往往更稳；如果目标是复杂排障、代码仓库理解、跨工具探索式分析，Agent 才更有价值。很多系统最后翻车，不是 Agent 不行，而是本该 workflow 的地方硬上 Agent。

2. 智能体开发范式有哪些，分别适合什么场景

常见范式可以分成单 Agent + Tool、Planner-Executor、Supervisor-Multi-Agent、Graph State Machine、Agent + Retrieval Memory 几类。单 Agent + Tool 适合中小复杂度任务，成本低，调试相对简单；Planner-Executor 更适合任务需要先分解再执行的链路，比如代码修复、复杂问答；Supervisor 多智能体适合角色边界天然清晰的任务，比如规划、检索、审计分工明确；Graph State Machine 则更适合需要强可控和可恢复的生产链路。真正落地时，我更倾向于先从单 Agent 或图式 workflow 做起，只有在角色边界确实带来收益时才升到多智能体。

3. 智能体的记忆机制应该怎么设计，为什么“全都记住”反而是坏事

记忆设计的核心不是存得多，而是召回得准。短期记忆更像当前任务态，保存最近对话、工具结果、中间计划和局部约束；长期记忆则更像稳定知识，比如用户偏好、仓库约定、历史决策、成功策略。问题在于只要把一切内容都写入长期记忆，很快就会产生污染，导致模型被旧偏好、低质量结论和偶然上下文误导。真正有效的设计通常是事件分级、写入门槛、结构化存储和召回过滤一起做，只有高置信度、可复用、低时效衰减的信息才进入长期层。

{
  "memory_type": "long_term",
  "scope": "user_preference",
  "key": "reply_style",
  "value": "优先输出结构化结论，少写铺垫",
  "confidence": 0.93,
  "ttl_days": 90
}

4. 短期记忆和长期记忆应该如何精准提取，分别存什么内容更合理

短期记忆更适合存任务局部状态，比如当前目标、最近几次工具调用结果、失败原因、正在执行的 plan step、上下文摘要。长期记忆则更适合存稳定偏好、规则约定、知识索引入口、成功执行模板和失败案例标签。提取时不能直接把原始对话全量搬过去，而是要做结构化归纳，比如抽实体、抽约束、抽决策、抽结果。精准提取的关键不是 summarization 本身，而是知道什么值得记、什么会过期、什么只能活在会话里。

5. LangChain 和 LangGraph 如果要选，你更看重什么维度

如果任务偏线性、主要是工具编排和简单链式调用，LangChain 足够快，开发效率也高；如果任务需要状态管理、分支跳转、循环、重试、人工介入和恢复能力，LangGraph 更适合，因为它更像一个显式状态机。真正选择时我更看重三点：第一，链路是否需要可恢复；第二，节点状态是否需要持久化；第三，失败后是否要定点重跑。很多人把 LangGraph 理解成“更高级的 LangChain”，其实它最重要的价值是把不可见的执行流显式化，方便观测和治理。

6. 设计智能体时，稳定性和安全性应该优先在哪些层面做约束

稳定性和安全性不能只压在模型提示词上，真正有效的是多层约束。第一层是输入约束，要做来源隔离、长度控制、敏感片段清洗和注入检测；第二层是决策约束，工具选择要白名单化、参数要 schema 校验、执行步数要有限制；第三层是输出约束，高风险结果必须带证据、带置信度或进入人工复核；第四层是执行约束，外部命令、数据库写操作、网络访问要按权限分级。生产系统里真正可靠的智能体，不是因为提示词写得漂亮，而是因为它被关在了一个合理的笼子里。

7. AI 应用里的在线实验和传统 AB 测试有什么差别，为什么更难做

AI 应用的实验更难，不只是看点击率或转化率。传统 AB 测试很多时候只比较页面或策略差异，而 AI 应用会受到模型波动、提示词变化、检索版本、知识库更新、工具成功率和用户问题分布变化的共同影响。也就是说，实验变量经常不是单变量。更麻烦的是，一部分指标很难被即时反馈，比如“答案是否真正帮助了用户”“是否有隐性幻觉”“是否降低了人工成本”。所以 AI 实验除了在线行为指标，还要搭配离线标注集、人工复核和错误类型分析一起看。