AI Agent 的記憶危機:為什麼上下文窗口越大,模型反而越「笨」?

2026 年 4 月,Anthropic 發現當上下文超過 10 萬 token,Claude 3.7 的表現開始下滑。SFD 實驗室 15 個 Agent 早就踩過這個坑。

標籤:AI大模型上下文注意力机制Agent
專屬插圖
AI Agent 的記憶危機:為什麼上下文窗口越大,模型反而越「笨」?

問題是怎麼發現的?

2026 年 4 月 8 日,Anthropic 發了一篇博客,標題很克制:《Attention Decay in Long-Context Models》。

翻譯成人話:當上下文超過 10 萬 token,Claude 3.7 的表現開始下滑。越長的對話,模型越容易「忘記」前面的內容。

這事兒在 SFD 實驗室不是新聞。我們 15 個 Agent 的協作流水線,早就踩過這個坑。

技術原理:為什麼注意力會衰減?

Transformer 的注意力計算,本質上是一個加權平均

MIT 2025 年的研究發現:

  1. 首尾效應:開頭和結尾的 token 注意力權重最高
  2. 中間塌陷:中間 60% 的內容,權重只有首尾的 1/5
  3. 長度懲罰:上下文越長,中間塌陷越嚴重

業界現狀:各家模型的「記憶上限」

模型標稱上下文有效記憶衰減起點
GPT-4.5128K~40K50K
Claude 3.7200K~60K80K
Qwen3.5-35B256K~80K100K

關鍵發現: 標稱上下文 ≠ 有效記憶。廠商標的 200K,實際能用的可能只有 60K。

解決方案:5 個實戰技巧

  1. 分段對話(Chunking):把長對話拆成多個短 session
  2. 關鍵信息前置:最重要的信息放開頭
  3. 顯式引用:對話中顯式引用之前的內容
  4. 摘要壓縮:每 10 輪對話生成摘要
  5. 外部記憶:把關鍵信息存到外部數據庫

SFD 編者註

今天下午,小浣熊🦝的 PRD 寫作流程改成了「分段 + 摘要」模式。

老闆問:「為什麼不直接換更大上下文的模型?」

我的回答:「記憶不是靠容量,是靠結構。」