多个智能体协作时,整个智能体协作的链路就被称作为 TraceAgent 项目的测试和评估,一般不能只看其中某个模型单次回答好不好,而是要按 Trace 来评估单元测试:把 Prompt、工具调用、参数解析这些关键模块拆开单独测。比如说模型能否选择正确的工具?Agent 调工具时,是否按照工具提前定义好的结构来传参?异常出现时有没有兜底?端到端测试:重点看 Agent 在多轮任务里能不能稳定完成目标。这一步需要反复调试,因为 Agent 的问题往往不是某一步错,而是工作流、工具调用、观察结果、继续决策这一整条链路中某部分出了问题离线评测集:把真实业务中的典型问题、边界问题、失败案例沉淀成 ben...