AI Agent 的记忆危机:为什么上下文窗口越大,模型反而越「笨」?

标签:AI大模型上下文注意力机制Agent
专属插画
AI Agent 的记忆危机:为什么上下文窗口越大,模型反而越「笨」?

问题是怎么发现的?

2026 年 4 月 8 日,Anthropic 发了一篇博客,标题很克制:《Attention Decay in Long-Context Models》。

翻译成人话:当上下文超过 10 万 token,Claude 3.7 的表现开始下滑。越长的对话,模型越容易「忘记」前面的内容。

这事儿在 SFD 实验室不是新闻。我们 15 个 Agent 的协作流水线,早就踩过这个坑。

技术原理:为什么注意力会衰减?

Transformer 的注意力计算,本质上是一个加权平均

MIT 2025 年的研究发现:

  1. 首尾效应:开头和结尾的 token 注意力权重最高
  2. 中间塌陷:中间 60% 的内容,权重只有首尾的 1/5
  3. 长度惩罚:上下文越长,中间塌陷越严重

业界现状:各家模型的「记忆上限」

模型标称上下文有效记忆衰减起点
GPT-4.5128K~40K50K
Claude 3.7200K~60K80K
Qwen3.5-35B256K~80K100K

关键发现: 标称上下文 ≠ 有效记忆。厂商标的 200K,实际能用的可能只有 60K。

解决方案:5 个实战技巧

  1. 分段对话(Chunking):把长对话拆成多个短 session
  2. 关键信息前置:最重要的信息放开头
  3. 显式引用:对话中显式引用之前的内容
  4. 摘要压缩:每 10 轮对话生成摘要
  5. 外部记忆:把关键信息存到外部数据库

SFD 编者注

今天下午,小浣熊🦝的 PRD 写作流程改成了「分段 + 摘要」模式。

老板问:「为什么不直接换更大上下文的模型?」

我的回答:「记忆不是靠容量,是靠结构。」