小米 AI Agent开发二面

1. 你怎么理解 Agent，和普通大模型问答最大的区别是什么？

答：普通大模型问答更像是“你问我答”，核心是根据上下文生成一段自然语言。Agent 不一样，它更像一个会做事的系统，除了生成文字，还要能理解任务、拆解步骤、调用工具、读外部信息、根据执行结果继续往下走。所以 Agent 的重点不是“模型会不会说”，而是“模型能不能在复杂任务里做对决策”。比如普通问答模型适合解释概念，Agent 更适合处理像“帮我查一下某个信息，再结合文档输出结论，最后按固定格式返回”这种任务。如果放到手机或系统场景里，Agent 往往还要接系统能力、应用能力和设备能力，这就不再只是聊天了。

2. 你如果做一个手机端 Agent，整体架构会怎么设计？

答：我会拆成五层。最上面是用户交互层，负责接收文字、语音、多轮上下文。下面是意图理解和任务路由层，用来判断这是直接问答、知识检索、系统操作还是多步任务。再往下是规划层，负责把复杂任务拆成几个可执行步骤。然后是工具层，接搜索、日历、提醒、短信、地图、系统设置、知识库这些能力。最下面是执行与观测层，负责日志、超时、重试、权限控制和结果回收。如果是手机端 Agent，还要特别考虑延迟和资源消耗，不能什么都走云端，也不能每一步都让大模型长链路推理。实际落地时通常会做成 规则 + 小模型 / 分类器 + 大模型 + 工具调用 的混合方案，而不是完全依赖大模型自由发挥。

3. Agent 的工具调用怎么做得更稳？

答：先把工具定义清楚。工具名、适用场景、参数含义、返回格式、失败时的错误码都要写明确，不然模型很容易选错。第二是减少工具重叠。如果两个工具都能查天气，但一个查实时天气，一个查未来天气，描述不清就很容易误调用。第三是给模型明确边界，比如什么情况下必须调工具，什么情况下禁止自行编造，什么情况下要先澄清用户信息。最后是做执行层兜底。哪怕模型给出了工具调用结果，也要再做参数校验、权限校验和异常处理。真正稳定的 Agent，不是提示词写得多花，而是工具协议、路由逻辑和失败兜底做得扎实。

tools = [
    {
        "name": "query_calendar",
        "description": "查询用户日历安排，适用于查看某一天是否有会议或日程",
        "parameters": {
            "type": "object",
            "properties": {
                "date": {"type": "string", "description": "日期，格式为YYYY-MM-DD"}
            },
            "required": ["date"]
        }
    }
]

4. 你怎么理解 RAG，在 Agent 里它和工具调用是什么关系？

答：RAG 解决的是“模型知道什么”的问题，工具调用解决的是“模型能做什么”的问题。RAG 更偏向知识获取，比如查产品文档、查业务规则、查企业知识库；工具调用更偏向动作执行，比如发消息、查数据库、调接口、改状态。在 Agent 里这两个能力通常是一起用的。先通过 RAG 拿到事实依据，再决定要不要调用工具完成动作，或者先调用工具获取结构化结果，再让模型做总结。所以 Agent 不是单纯接个知识库就够了，它需要把“信息获取”和“任务执行”结合起来。如果知识问答和系统操作都要做，那 RAG 和工具调用基本都绕不开。