在开发 AI 对话应用(如调用豆包、GPT 等 API)时,我们常面临一个核心问题:AI 本身是无状态的,如何让它记得用户的历史对话,且在高并发下依然保持极速响应? 一、 核心痛点:为什么 AI 需要“记忆”? 调用大模型 API 时,模型不会自动记录之前的聊天记录。为了实现“多轮对话”,我们必须在每次发送请求时,把历史消息一并传给 API。这就引出了三个挑战: 性能:频繁的数据库查询会拖慢响应速度。 上下文窗口:模型有 Token 上限,不能无限制地堆积历史。 成本:发送的上下文越多,消耗的 Token 越多,费用越高。 二、 四种演进方案深度解析 1. MySQL 单库方案(起步阶段)...