阿里云 AI 应用开发暑期三面

1. 介绍下自己的优缺点

2. 你的 Agent 主要是用来解决什么问题的？

这个 Agent 主要解决跨境电商运营中“数据分散、决策链路长、人工分析慢”的问题。传统运营需要分别看广告后台、商品后台、库存系统、用户评论、竞品价格和售后工单，再人工判断问题原因。Agent 的目标是把这些数据源通过工具封装起来，让模型按任务目标自动规划查询步骤，并生成有证据支撑的运营建议。

比如用户问“为什么这款蓝牙耳机最近销量下滑”，Agent 不会直接回答，而是会拆成几个子任务：查曝光和点击是否下降，查转化率是否下降，查广告 ROI 是否异常，查库存是否断货，查评论是否出现集中差评，查竞品是否降价。最后根据证据判断是流量问题、转化问题、价格问题还是供应链问题。

agent_plan = {
    "goal": "分析商品销量下滑原因",
    "steps": [
        "query_product_metrics",
        "query_ads_metrics",
        "analyze_reviews",
        "query_inventory",
        "query_competitor_price",
        "generate_diagnosis"
    ],
    "constraints": [
        "结论必须引用数据",
        "不能编造不存在的指标",
        "高风险建议需要提示人工确认"
    ]
}

3. 针对不同领域的查询，复杂度是不是一样？怎么做领域划分？

答案：不同领域的查询复杂度差异很大。普通知识问答可能只需要一次检索和总结，但运营决策类问题通常需要跨多个数据源、多轮工具调用和指标归因。比如“某商品库存是多少”是单工具查询，“为什么转化率下降”就是多因素分析，需要结合曝光、点击、价格、库存、评价、广告和竞品。

我会把领域分成事实查询、指标分析、归因诊断、策略生成和执行型任务。事实查询复杂度最低，直接查库即可；归因诊断需要多工具、多指标对比；策略生成还需要业务规则和风险校验；执行型任务最复杂，因为涉及真实业务动作，比如修改广告预算、调整库存预警阈值，这类必须加权限和二次确认。

def classify_task(query: str):
    if any(k in query for k in ["多少", "查询", "库存", "价格"]):
        return "fact_query"
    if any(k in query for k in ["为什么", "原因", "下降", "异常"]):
        return "diagnosis"
    if any(k in query for k in ["怎么优化", "方案", "策略"]):
        return "strategy_generation"
    if any(k in query for k in ["帮我调整", "执行", "修改预算"]):
        return "action_task"
    return "general_chat"

4. Agent 的记忆模块怎么设计？长期记忆会不会污染结果？

答案：记忆模块我会拆成三层：短期记忆、任务记忆和长期记忆。短期记忆保存当前会话的最近几轮对话；任务记忆保存当前任务的目标、工具结果、已确认约束和中间结论；长期记忆保存用户偏好、店铺经营特点、历史策略效果和常见业务规则。

长期记忆最大的问题是污染。如果用户某一次说“这个品类先不要降价”，不能永久认为所有品类都不能降价。所以长期记忆必须有作用域、来源、时间、置信度和过期策略。召回长期记忆后，也不能直接当成事实，而是作为上下文参考，关键结论仍然要查实时数据。

memory_item = {
    "user_id": "u_1001",
    "scope": "shop:electronics",
    "type": "preference",
    "content": "用户倾向先优化广告素材，再考虑降价",
    "source": "user_confirmed",
    "confidence": 0.91,
    "created_at": "2026-05-20",
    "expire_days": 90
}

def should_use_memory(memory, current_scope):
    return (
        memory["confidence"] >= 0.8
        and memory["scope"] == current_scope
    )

5. 回顾这个 Agent，你觉得最大的技术挑战是什么？

答案：最大的挑战不是工具调用本身，而是 多步骤推理中的可靠性控制。Agent 很容易出现三类问题：第一是规划错，把本来应该查库存的问题规划成广告分析；第二是工具调用参数错，比如时间范围、商品 ID、站点填错；第三是模型在证据不足时强行归因，生成看起来合理但没有数据支撑的结论。

我的处理方式是把 Agent 做成“规划—执行—观察—校验—生成”的闭环。规划阶段限制可用工具和参数范围；执行阶段做参数校验和权限校验；观察阶段把工具结果结构化；生成阶段要求结论绑定证据；最后用规则和模型评审器做输出校验。如果某个关键证据缺失，就不允许模型给确定性结论。

def validate_conclusion(conclusion, evidence):
    required_fields = ["metric", "time_range", "value", "baseline"]

    for item in conclusion.get("claims", []):
        evidence_id = item.get("evidence_id")
        if evidence_id not in evidence:
            return False, "结论缺少证据引用"

        ev = evidence[evidence_id]
        if not all(field in ev for field in required_fields):
            return False, "证据字段不完整"

    return True, "ok"