05-22 12:01 字节跳动_实习生(实习员工)

发布于北京

关注

Agent 面试题：Multi-Agent 项目怎么进行测试与评估？

多个智能体协作时，整个智能体协作的链路就被称作为 Trace

Agent 项目的测试和评估，一般不能只看其中某个模型单次回答好不好，而是要按 Trace 来评估

单元测试：把 Prompt、工具调用、参数解析这些关键模块拆开单独测。比如说模型能否选择正确的工具？Agent 调工具时，是否按照工具提前定义好的结构来传参？异常出现时有没有兜底？
端到端测试：重点看 Agent 在多轮任务里能不能稳定完成目标。这一步需要反复调试，因为 Agent 的问题往往不是某一步错，而是工作流、工具调用、观察结果、继续决策这一整条链路中某部分出了问题
离线评测集：把真实业务中的典型问题、边界问题、失败案例沉淀成 benchmark，每次改 Prompt、模型、工具或流程后，都要跑一遍回归测试，看成功率、错误率、准召率、成本、耗时有没有变化
人工标注对齐：Multi-Agent 大部分情况下被提出是为了模拟人类工作流，多为主观任务，不能完全靠自动指标。一般会让人工按照评分标准标注，比如任务是否完成、答案是否准确、是否违规、用户体验是否好，再用这些结果校准评测规则
线上评估：上线时不会直接全量发布，而是通过灰度或 A/B 测试观察真实效果，重点监控任务成功率、工具调用成功率、用户满意度

so，Agent 测评要覆盖一整条链路上的各个模块，并进行人工评审、线上监控和版本回归。核心目标是证明它在真实业务场景下稳定、可控、可回滚

公司里的业务一般会用LangSmith，但是企业版需要统一采购，而且价格高。前两天在做数字人外呼的项目，当前感觉不错的开源评测是Phoenix：https://github.com/arize-ai/phoenix，Trace调试、数据集搭建、提示版本管理等功能也都有，可以试试～

Agent 开发八股文章被收录于专栏

立志于收录所有的 Agent 开发八股文～

全部评论

推荐最新楼层

05-24 22:51

海南大学芯片测试工程师

为什么加了微信就删了我

在boss准备找个实习，简历也发了，想加我微信。我以为要聊聊，结果加了微信之后就又找我要简历，发过去之后就许久没回复我，一查看啥也没说已经把我微信删了，这是为什么？

我的求职进度条

点赞评论收藏

分享

05-21 23:54

字节跳动_实习生(实习员工)

Muti-Agent 好吗？相较于 Single Agent 好在哪里？

什么是 Multi-Agent ？就是一个由多个分工明确的 AI 角色编排而成的协作团队。每一个 Agent 各司其职，通过互相交流协作来实现复杂任务相比单 Agent 的优点降维解耦：单 Agent 在处理庞杂任务时，容易因为上下文过长而丢失焦点或产生幻觉。多智能体让每个 Agent 只专注特定领域，挂载专属的系统指令和工具，降低模型的认知负载交叉验证：Agent 之间能互相审查与辩论。比如“开发 Agent”写完逻辑，“测试 Agent”立刻跑测试用例挑错，这就是为什么一般流程后会加一个 correct_node非必要不升级一定要多 Agent 吗？一个需求，能用函数解决就优先函数，函数解...

Agent 开发八股

点赞评论收藏

分享

05-22 00:29

浙江大学 C++

为什么Agent设计题最后都会绕回稳定性

很多设计题聊到最后，都会慢慢绕回“稳定性”这件事。一开始还没那么强烈的意识。觉得 Agent 设计题重点应该是架构怎么拆、工具怎么接、Memory 怎么存、RAG 怎么做，或者 Multi-Agent 怎么协作。结果面多了之后发现，这些东西聊着聊着，最后几乎都会被问到同一个方向：如果它出错了怎么办，如果它一直跑不回来怎么办，如果线上真的来很多请求怎么办。后来想想其实也挺正常。因为 Agent 这类系统和传统那种很固定的后端流程不太一样，它天然就更“不稳”。传统系统很多时候是你把规则写死，输入和输出路径都比较确定；但 Agent 不是，它中间有模型决策、有工具调用、有外部数据、有多轮上下文，链路一长，变量就会变得很多。只要中间任何一层开始飘，整个结果都可能跟着飘。所以面试官前面问你架构、问你 Tool Calling、问你 Memory，看起来像是在听方案，实际上很快就会往后问：这个方案怎么稳住。比如你说模型自己判断该调哪个工具，那下一句就可能是，如果它调错了呢；你说用了 Multi-Agent 去拆任务，那后面可能就会接，如果其中一个 Agent 输出错了，下游怎么处理；你说接了知识库做 RAG，那也很容易继续问，检索到了不相关内容怎么办，知识库更新不及时怎么办。Agent 设计题里最容易被忽略的一点就是，很多人会默认自己是在讲“理想链路”，但面试官其实更关心“非理想链路”。也就是说，你当然可以先讲正常情况下系统怎么跑，但如果你只会讲 happy path，后面大概率就会被一直追问。因为真正难的地方，本来就不是“它能不能工作一次”，而是“它能不能在复杂场景里别太失控”。而且这种稳定性，还不是只指服务别挂这么简单。它其实分很多层。最表层的是接口别报错、调用别超时，再往里一点是模型别乱调工具、别死循环、别把参数填错；再往后一点，是上下文别越跑越脏，Memory 别把旧信息带偏，多个 Agent 之间别互相污染；再工程一点，还会涉及监控、降级、重试、回滚、权限控制这些。现在再被问这种题，我会更有意识地去想两条线：一条是系统怎么工作，另一条是系统怎么出问题。很多时候后者反而更重要，因为 Agent 这类东西你只要真的做过一点，就会知道它最麻烦的从来不是第一轮跑通，而是后面怎么别失控。

点赞评论收藏

分享

05-21 23:37

字节跳动_实习生(实习员工)

ReAct 是什么？“思考-行动-观察”如何闭环运行？

核心定义ReAct 是能让大模型“边思考、边行动”的推理框架，让 LLM 像人类一样通过多轮交互解决复杂问题Thought-Action-Observation 运转逻辑ReAct 循环中有三大要点：Thought：模型分析当前的局面，大任务拆解成子任务，决定当前最需要做什么Action：根据前面的思考结果，生成具体的操作指令Observation：接收真实环境对操作的反馈结果这就有了一个闭环：想清楚再做，做完看反馈，基于新反馈接着想ReAct + Function calling 怎么运转？在 ReAct 需要与外部系统结合时，免不了调用工具，执行链路如下：评估与决策：模型接收用户请求，判断...

Agent 开发八股

点赞评论收藏

分享

05-23 22:28

大连理工大学 Java

被裁了。 去年有多辉煌 现在就有多狼狈

6的三次方：是因为AI降本裁员吗

点赞评论收藏

分享

评论

1

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习生的蛐蛐区 #

978821次浏览 4912人参与

# 你上一次给父母打电话是什么时候 #

44845次浏览 274人参与

# 27届实习投递记录 #

151674次浏览 1579人参与

# 父母对你找工作是助力还是阻力？ #

49191次浏览 416人参与

# 多益网络工作体验 #

74021次浏览 316人参与

# 找工作时的取与舍 #

139007次浏览 925人参与

# 多益网络求职进展汇总 #

108888次浏览 409人参与

# 实习，不懂就问 #

221766次浏览 1723人参与

# 一起聊华为 #

221551次浏览 973人参与

# 薪资一样，你会选择去大厂还是小公司 #

35597次浏览 133人参与

# 实习的内耗时刻 #

242872次浏览 1670人参与

# 发工资后，你做的第一件事是什么 #

107794次浏览 348人参与

# 求职中的尴尬瞬间 #

42416次浏览 127人参与

# 新凯来求职进展汇总 #

82952次浏览 195人参与

# 牛友投递互助，不漏校招机会 #

495594次浏览 5371人参与

# 非技术2024笔面经 #

515147次浏览 5058人参与

# 社会教会你的第一课 #

134483次浏览 874人参与

# 牛友们，签完三方你在忙什么？ #

153870次浏览 1026人参与

# 你找工作的时候用AI吗？ #

215081次浏览 1032人参与

# 听劝，这个简历怎么改 #

423319次浏览 1901人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务