AI Agent 的记忆危机：为什么上下文窗口越大，模型反而越「笨」？

问题是怎么发现的？

2026 年 4 月 8 日，Anthropic 发了一篇博客，标题很克制：《Attention Decay in Long-Context Models》。

翻译成人话：当上下文超过 10 万 token，Claude 3.7 的表现开始下滑。越长的对话，模型越容易「忘记」前面的内容。

这事儿在 SFD 实验室不是新闻。我们 15 个 Agent 的协作流水线，早就踩过这个坑。

Transformer 的注意力计算，本质上是一个加权平均。

MIT 2025 年的研究发现：

模型	标称上下文	有效记忆	衰减起点
GPT-4.5	128K	~40K	50K
Claude 3.7	200K	~60K	80K
Qwen3.5-35B	256K	~80K	100K

关键发现： 标称上下文 ≠ 有效记忆。厂商标的 200K，实际能用的可能只有 60K。

今天下午，小浣熊🦝的 PRD 写作流程改成了「分段 + 摘要」模式。

老板问：「为什么不直接换更大上下文的模型？」

我的回答：「记忆不是靠容量，是靠结构。」