Agent面经汇总（含答题思路

AI 应用 / Agent 岗考察:Agent 框架 + 工具调用 + Prompt 工程 + 实际应用落地。增长最快的方向。

1、Agent / 工具调用

介绍一下 Agent 的核心组件
- 思路:LLM(规划+推理) + Memory(短/长期) + Tools(外部能力) + Planner + Executor + Reflection;关键区别是「循环执行」而非一次调用。
ReAct 的执行流程是什么
- 思路:Thought → Action(选工具+参数) → Observation(工具结果) → Thought 循环,直到 Final Answer 或达步数上限。
Function Calling 和 MCP 的区别
- 思路:FC 是模型↔工具的协议(OpenAI 起源);MCP 是工具/数据源标准协议(Anthropic),目标让工具跨模型/跨 Agent 复用。
多 Agent 系统怎么协作?常见架构有哪些
- 思路:中心化(Orchestrator+Worker) / 去中心化(消息总线) / 分层(Manager→Specialist);讲清「分配/避免循环/聚合」。
Agent 的规划能力怎么实现
- 思路:显式规划(先输出 plan 再执行) vs 隐式(边想边做);常用 ReAct/Plan-and-Execute/ToT;复杂任务先 plan 后 reflection。
Agent 的记忆机制有哪些(短期 / 工作 / 长期)
- 思路:短期=对话上下文;工作=本任务中间状态;长期=向量库存历史/偏好。要会答「各自适合什么场景+数据结构」。
Agent 工具调用失败怎么处理
- 思路:重试(指数退避) + 工具替换/降级 + Reflection 改参数 + 兜底回复;强调「不要无限循环」,设 max_retry。
怎么评估 Agent 的效果
- 思路:任务完成率 + 步数效率 + 工具调用正确率 + Token 成本 + 人工评分;端到端 + 单步双轨。
LangChain 和 LangGraph 的区别
- 思路:LangChain 链式抽象适简单工作流;LangGraph 显式 DAG/图,适复杂分支+循环+多 Agent。
Agent 多轮执行出错怎么定位
- 思路:全链路 trace(每步输入/工具/输出) + LangSmith/LangFuse 可观测平台;按步看哪一步偏离预期。
ReAct 比单纯 LLM 强在哪
- 思路:能调外部工具拿事实,多步推理时能校验中间步骤;适合需要现场查/算的任务。
Agent 框架你用过哪些?各自优缺点
- 思路:LangChain/LangGraph/AutoGPT/CrewAI/Coze/Dify 中至少讲 2 个,按「上手成本/扩展性/可观测性/适合场景」对比。
你做的 Agent demo 用了几个工具
- 思路:不必多,3-5 个就够(搜索+DB+代码执行+计算);重点讲「为什么选这些」。
Agent 怎么决定调哪个工具
- 思路:LLM 根据 prompt 中的 tool 描述 + 当前上下文 + few-shot 例子决策;好的 tool 描述 = 决策关键。
Reflection 失败 3 次后怎么处理
- 思路:切换工具/降级到固定回复/转人工/给错误说明 + 重新提问引导;设 max retry 防死循环。
Coze / 扣子是 Agent 平台还是工作流平台
- 思路:字节出品的 Agent 工作流平台,本质低代码可视化编排 + LLM 节点;和 Dify 同类,介于纯 Agent 和 BPM 之间。
流式返回时，如何插入非文本事件（工具调用标记、思考过程、错误提示、分段标识），且不影响前端渲染？
- 思路:用结构化事件流(event: text|tool_call|thinking|error),前端按 event type 分别渲染。
ReAct框架在实际开发中，如何避免“思考与行动脱节”？
- 思路:tool 描述要精准 + Few-shot 示范 + 必要时让模型先规划再 act + Reflection 校验上一步是否真做到。
Agent工具调用的Schema设计核心是什么？
- 思路:名字精准(动宾)、描述说清「何时调」、参数 schema 严格、加 example、避免歧义和重叠。

2、RAG / 检索

介绍一下 RAG 的整体流程
- 思路:Query → 改写(可选) → Embed → 检索(向量+BM25 混合) → Rerank → 组装 context → LLM 生成。强调「检索是为生成服务」。
RAG 解决了大模型的什么核心问题
- 思路:幻觉、知识过时、私有数据无法访问;本质是把「事实」从模型权重里拆出来变成可更新的外部知识。
文档切片粒度怎么定?切大切小各有什么风险
- 思路:太大→噪声多+context 浪费;太小→语义不全。500-1500 字常用,按语义边界(段/小节)切,加 overlap。
向量召回和 BM25 关键词召回各自适合什么场景?为什么要混合
- 思路:向量懂语义/同义改写;BM25 对术语/精确匹配强。常做 hybrid + Rerank 取长补短。
Embedding 模型怎么选?有哪些主流方案
- 思路:看场景(中英/通用/领域)、维度(算力)、最大输入、benchmark(MTEB);中文常用 BGE/M3E/E5。
Rerank 在 RAG 链路里起什么作用?什么时候必须加
- 思路:召回阶段牺牲精度换召回,Rerank 用 cross-encoder 精排 Top N;文档质量参差或召回噪声多时必加。
如何评估 RAG 的检索质量?常用指标有哪些
- 思路:Recall@K / Precision@K / MRR / NDCG;可加 LLM-as-judge 评忠实度。
RAG 的幻觉怎么治理
- 思路:提高召回质量 + Prompt 约束「基于上下文回答」 + 校验生成是否能在 context 找到依据 + cite 来源。
如何处理长文档?切片 / 摘要 / 父子文档怎么选
- 思路:短问题→直接切片;信息分散→摘要+索引;语义连贯重要→父子块。常常组合用。
多模态 RAG 怎么做?有什么坑
- 思路:文/图/表分别 embed → 统一/分库召回 → LLM 多模态理解;坑: 模态对齐、混合排序、上下文长度。
知识图谱和 RAG 怎么结合
- 思路:实体识别后查图谱拿关系 + 向量检索拿描述;适合金融/医疗强关系场景,弥补纯文本 RAG 关系缺失。
RAG 召回率低怎么排查
- 思路:看 query 改写质量 → 切片粒度 → embedding 模型适配度 → 索引参数 → 数据覆盖度;逐层定位。
Top K 怎么定?太大太小各有什么问题
- 思路:太小漏召回;太大噪声+token 浪费。常 K=5-10,配合 Rerank 取 Top 3-5 送 LLM。
RAG 上下文压缩有哪些方法
- 思路:LLMLingua 类 token 压缩 + 句子级抽取 + Rerank+截断 + Map-Reduce 归纳。
与直接对 LLM 进行微调相比，RAG 主要解决了什么问题？
- 思路:知识更新成本低 + 可解释(给来源) + 私有数据不入权重 + 动态可控。
一个完整的 RAG 流水线包含哪些关键步骤？
- 思路:见 RAG 整体流程;补一句「每步都要单独评估和监控」。
评估一个 Embedding 模型的好坏有哪些指标？
- 思路:MTEB 各任务平均 + 目标场景 Recall@K/MRR + 推理速度 + 维度 +