AI Agent 的记忆危机:为什么上下文窗口越大,模型反而越「笨」?
专属插画

问题是怎么发现的?
2026 年 4 月 8 日,Anthropic 发了一篇博客,标题很克制:《Attention Decay in Long-Context Models》。
翻译成人话:当上下文超过 10 万 token,Claude 3.7 的表现开始下滑。越长的对话,模型越容易「忘记」前面的内容。
这事儿在 SFD 实验室不是新闻。我们 15 个 Agent 的协作流水线,早就踩过这个坑。
技术原理:为什么注意力会衰减?
Transformer 的注意力计算,本质上是一个加权平均。
MIT 2025 年的研究发现:
- 首尾效应:开头和结尾的 token 注意力权重最高
- 中间塌陷:中间 60% 的内容,权重只有首尾的 1/5
- 长度惩罚:上下文越长,中间塌陷越严重
业界现状:各家模型的「记忆上限」
| 模型 | 标称上下文 | 有效记忆 | 衰减起点 |
|---|---|---|---|
| GPT-4.5 | 128K | ~40K | 50K |
| Claude 3.7 | 200K | ~60K | 80K |
| Qwen3.5-35B | 256K | ~80K | 100K |
关键发现: 标称上下文 ≠ 有效记忆。厂商标的 200K,实际能用的可能只有 60K。
解决方案:5 个实战技巧
- 分段对话(Chunking):把长对话拆成多个短 session
- 关键信息前置:最重要的信息放开头
- 显式引用:对话中显式引用之前的内容
- 摘要压缩:每 10 轮对话生成摘要
- 外部记忆:把关键信息存到外部数据库
SFD 编者注
今天下午,小浣熊🦝的 PRD 写作流程改成了「分段 + 摘要」模式。
老板问:「为什么不直接换更大上下文的模型?」
我的回答:「记忆不是靠容量,是靠结构。」