淘天 AI应用开发 二面

1. Agent 和传统 workflow 的本质区别是什么,什么时候该选 Agent,什么时候不该选

传统 workflow 的核心是路径预定义,系统知道每一步做什么、怎么流转、失败后怎么回退,所以它更适合规则清晰、链路稳定、审计要求高的场景。Agent 的核心则是把部分决策权交给模型,让它在运行时决定下一步查什么、调什么工具、如何分解任务,因此更适合任务开放、输入噪声大、解法不唯一的场景。真正的分界线不在“有没有模型”,而在“是否允许运行时规划”。如果目标是工单分类、审批流转、固定字段抽取,workflow 往往更稳;如果目标是复杂排障、代码仓库理解、跨工具探索式分析,Agent 才更有价值。很多系统最后翻车,不是 Agent 不行,而是本该 workflow 的地方硬上 Agent。

2. 智能体开发范式有哪些,分别适合什么场景

常见范式可以分成单 Agent + Tool、Planner-Executor、Supervisor-Multi-Agent、Graph State Machine、Agent + Retrieval Memory 几类。单 Agent + Tool 适合中小复杂度任务,成本低,调试相对简单;Planner-Executor 更适合任务需要先分解再执行的链路,比如代码修复、复杂问答;Supervisor 多智能体适合角色边界天然清晰的任务,比如规划、检索、审计分工明确;Graph State Machine 则更适合需要强可控和可恢复的生产链路。真正落地时,我更倾向于先从单 Agent 或图式 workflow 做起,只有在角色边界确实带来收益时才升到多智能体。

3. 智能体的记忆机制应该怎么设计,为什么“全都记住”反而是坏事

记忆设计的核心不是存得多,而是召回得准。短期记忆更像当前任务态,保存最近对话、工具结果、中间计划和局部约束;长期记忆则更像稳定知识,比如用户偏好、仓库约定、历史决策、成功策略。问题在于只要把一切内容都写入长期记忆,很快就会产生污染,导致模型被旧偏好、低质量结论和偶然上下文误导。真正有效的设计通常是事件分级、写入门槛、结构化存储和召回过滤一起做,只有高置信度、可复用、低时效衰减的信息才进入长期层。

{
  "memory_type": "long_term",
  "scope": "user_preference",
  "key": "reply_style",
  "value": "优先输出结构化结论,少写铺垫",
  "confidence": 0.93,
  "ttl_days": 90
}

4. 短期记忆和长期记忆应该如何精准提取,分别存什么内容更合理

短期记忆更适合存任务局部状态,比如当前目标、最近几次工具调用结果、失败原因、正在执行的 plan step、上下文摘要。长期记忆则更适合存稳定偏好、规则约定、知识索引入口、成功执行模板和失败案例标签。提取时不能直接把原始对话全量搬过去,而是要做结构化归纳,比如抽实体、抽约束、抽决策、抽结果。精准提取的关键不是 summarization 本身,而是知道什么值得记、什么会过期、什么只能活在会话里。

5. LangChain 和 LangGraph 如果要选,你更看重什么维度

如果任务偏线性、主要是工具编排和简单链式调用,LangChain 足够快,开发效率也高;如果任务需要状态管理、分支跳转、循环、重试、人工介入和恢复能力,LangGraph 更适合,因为它更像一个显式状态机。真正选择时我更看重三点:第一,链路是否需要可恢复;第二,节点状态是否需要持久化;第三,失败后是否要定点重跑。很多人把 LangGraph 理解成“更高级的 LangChain”,其实它最重要的价值是把不可见的执行流显式化,方便观测和治理。

6. 设计智能体时,稳定性和安全性应该优先在哪些层面做约束

稳定性和安全性不能只压在模型提示词上,真正有效的是多层约束。第一层是输入约束,要做来源隔离、长度控制、敏感片段清洗和注入检测;第二层是决策约束,工具选择要白名单化、参数要 schema 校验、执行步数要有限制;第三层是输出约束,高风险结果必须带证据、带置信度或进入人工复核;第四层是执行约束,外部命令、数据库写操作、网络访问要按权限分级。生产系统里真正可靠的智能体,不是因为提示词写得漂亮,而是因为它被关在了一个合理的笼子里。

7. AI 应用里的在线实验和传统 AB 测试有什么差别,为什么更难做

AI 应用的实验更难,不只是看点击率或转化率。传统 AB 测试很多时候只比较页面或策略差异,而 AI 应用会受到模型波动、提示词变化、检索版本、知识库更新、工具成功率和用户问题分布变化的共同影响。也就是说,实验变量经常不是单变量。更麻烦的是,一部分指标很难被即时反馈,比如“答案是否真正帮助了用户”“是否有隐性幻觉”“是否降低了人工成本”。所以 AI 实验除了在线行为指标,还要搭配离线标注集、人工复核和错误类型分析一起看。

8. MCP 和 CLI 工具接入在工程上分别解决什么问题,它们不是一回事

CLI 更像本地命令能力的暴露方式,适合把已有脚本、构建命令、代码扫描器、测试工具

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

1. 你讲一讲 ReAct 模式的原理,以及你的对话 Agent 是如何基于 ReAct 模式去实现的?2. ReAct 跟普通的 Function Calling 有什么区别?3. 这个 Agent 里可以做业务咨询、告警自救、工单预处理,这些场景在 ReAct 模式上要做切换的话,是怎么设计的?4. 这些场景是用一个大的 System Prompt 统一收容了吗?5. 你对上下文管理有过了解吗?6. 如果后续场景、工具越来越多,这个场景切换和工具匹配的部分要怎么优化?7. 多轮循环里的防空转(持续思考但不产生行动),你是怎么去设计的?8. Plan Execute Replan 这个模式跟 ReAct 模式有什么区别呢?9. Replan 这个节点是在什么样的情况下触发的?包括 Planning 里原计划不可行、需要重新规划的逻辑,是怎么设计的?10. 你这个 AIOPS 的 Multi-Agent 架构是怎么样的?11. 那你这个架构设计,为什么不用 ReAct 这种模式呢?12. 你说的 “上下文隔离更好地判断结果”,这句话怎么理解?13. 那你用多 Agent 的这种模式、用 Plan 的方式去实现,它是怎么解决你刚刚提出的问题的?优势是什么?14. RAG 这部分的系统,包括固定的系统文档、向量化以及检索方案,这块你是怎么设计的?15. 你的 topK 设置的是多少?设置的依据是什么?topK 太高或者太低分别会有什么问题?16. 你这个 Embedding 用的什么模型?17. 你选择这个 embedding 模型,是基于你的业务需要,还是基于有可用的免费额度就先用了?18. MCP 协议这块你有了解过吗?我看你项目里也用到了对吧?19. 你怎么理解 MCP?以及你用 MCP 去集成查询工具,具体是怎么设计的?20. 这里面的 MCP Server 跟 Client 分别是谁?21. 你这个日志查询工具,如果返回的日志内容太长、条数太多,你要怎么处理?22. 如果用 Lua 脚本去做预扣库存、分布式锁的相关实现,具体是怎么做的?23. 你这个项目里的乐观锁是怎么实现的?24. 这个条件更新具体是怎么更新的?对应的 SQL 语句是怎么写的?25. 那为什么不用版本号的方式实现乐观锁呢?26. 如果 Redis 里面的库存已经扣减了,但是数据库更新失败了,这种不一致的数据你要怎么处理?27. 你有用 AI Coding 去写代码吗?28. 都用了什么 AI Coding 工具?29. 你用 Claude Code 的时候,是怎么做上下文管理的?30. 你怎么理解上下文?31. 你对 Agent 和 Skill 这一块的理解是什么?32. 你用 Claude Code 的时候,里面用的是哪个模型?33. 你对市面上主流的代码大模型有去了解过吗?主流的模型有哪些,它们分别有什么差异?
我的求职进度条
点赞 评论 收藏
分享
评论
点赞
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务