老婆问我：“什么是大模型的“上下文”？”

最近，老婆又又又刷到一条新闻（PS：也不知道为什么总是看新闻）：“大模型靠上下文理解能力碾压传统 AI！”她一脸懵地问我：上下文不是写作文要首尾呼应吗？难道 AI 还要学语文课？

我乐了：上下文不是作文技巧，而是 AI 的“记忆项链”——把零散的信息串成连贯的逻辑。就像你和朋友聊天时，绝不会突然蹦出一句“给我一杯拿铁”，而是会说：“刚才提到的那家咖啡馆，请推荐招牌饮品。”AI 有了上下文能力，才能听懂这背后的关联。她更疑惑了：以前的 AI 听不懂人话吗？为啥非要搞上下文？

其实背后有个关键问题：传统 AI 像金鱼，7 秒就失忆。举个例子，你问 AI：“《哈利波特》作者是谁？”它答：“J.K.罗琳。”接着问：“她最近的新书是什么？”传统 AI 会反问：“‘她’是谁？”而具备上下文能力的大模型，就像贴心的助理，立刻明白“她”指代上文的罗琳。

想象一下，上下文能力让 AI 拥有了“时间线管理术”。它不仅能记住你说过的话，还能像侦探一样串联线索。核心不是存储信息，而是理解信息流中的因果关系。

你：“推荐一杯咖啡。”

AI：“拿铁不错。”

你：“不要奶味重的。”

AI：“卡布奇诺如何？”

→ 模型完全忘了你刚说过“不要奶味”。

你：“推荐一杯咖啡。”

AI：“拿铁不错。”

你：“不要奶味重的。”

AI：“建议尝试美式咖啡，低脂无奶。”

→ 模型记住了你的偏好演变轨迹。

这种能力让 AI 像人类一样，能把对话织成一张逻辑网，而不是处理一堆碎片化的“信息孤岛”。

你可能会问：让 AI 一句一句处理不行吗？但传统模型有三大死穴：

大模型实现上下文能力的核心，是靠两大法宝：

1. 注意力织布机（Attention）：自动给关键信息打高光。比如对话中出现“我对猫毛过敏”后，当用户提到“领养宠物”，模型会立即调取“过敏”标签，阻止推荐猫咪。

2. 状态接力棒（Token Streaming）：像接力赛一样传递对话状态。比如你问：“《三体》讲了什么？”接着问：“第二部主角是谁？”模型会把前一句的“《三体》”作为接力棒，精准锁定到“罗辑”。

输入：“打开客厅灯。再把亮度调低。”

输出：先执行“开灯”，然后因找不到操作对象，对“调低亮度”报错。

输入：“打开客厅灯。再把亮度调低。”

输出：先开灯，接着自动锁定“客厅灯”作为调光对象，流畅完成全套操作。

但上下文能力并非无懈可击，仍有三大难关：

记忆长度有限：就像人类只能记住最近 7 件事，以DeepSeek为例，推理模型和对话模型的最大上下文窗口均为64K tokens（约6万多个汉字），但单次输出最多不超过8K tokens（约8000个汉字）。超过这个长度，最早的信息会被“挤出”记忆区。
重点模糊：面对海量上下文时，可能抓错重点。比如医生问诊记录长达 50 句，模型可能把“患者爱喝奶茶”当成关键，忽略“心电图异常”。
时空错乱：在多轮对话中容易混淆时间线。比如前天你说“喜欢蓝色”，昨天改口“现在更爱绿色”，今天问“推荐衣服颜色”，模型可能固执地推荐蓝色。