注意力机制：AI 是怎么"看懂"一句话的重点的？

你读这句话的时候，大脑会自动抓住关键词："明天 下午三点 会议室"。你不会把每个字同等对待。

Transformer 模型里的 注意力机制（Attention Mechanism），做的就是类似的事。

一句话里的"权重分配"

假设模型要理解这句话："银行经理拒绝了贷款申请，因为申请人信用记录太差。"

模型需要判断："因为"后面解释的是谁被拒绝？是经理还是申请人？

注意力机制会给每个词打分。当模型处理"因为"后面的内容时，它会给"申请人"分配更高的注意力权重，而不是"经理"。这样模型就能正确理解因果关系。

不用被数学吓到，核心逻辑只有三步：

第一步：提问（Query）
模型问："我现在在处理'因为'这个词，我需要关注前面哪些词？"

第二步：匹配（Key-Value）
模型把"因为"和前面每个词做匹配。"申请人"和"因为"的关联度高，得分高；"银行"和"因为"关联度低，得分低。

第三步：加权求和
高分的词贡献更多信息，低分的词贡献更少。最终得到一个融合了上下文重点的表示。

这个过程叫 自注意力（Self-Attention）——模型自己决定一句话里哪些词重要。

实际实现中，模型不会只用一组注意力，而是用多组（通常 8-32 组），这叫 多头注意力（Multi-Head Attention）。

为什么需要多个"头"？因为一句话可能有多种含义层次：

每个头从不同角度提取信息，最后合并。就像一群人讨论一个问题，有人看数据、有人看逻辑、有人看背景，综合判断更准确。

研究人员可以把注意力权重画成热力图。你会发现一些有趣的现象：

注意力机制是 2017 年 Google 的 Transformer 论文的核心创新。它取代了之前的 RNN/LSTM 架构，带来了三个实际好处：

注意力也不是万能的。当输入非常长（比如几万字的文档）时，注意力计算量会呈平方级增长。这就是为什么最近出现了"稀疏注意力"、"线性注意力"等优化方案——核心思路都是：不需要关注所有词，关注重要的就够了。

这和人类阅读很像：你扫读一篇文章时，也不会逐字逐句看，而是抓住标题、关键词、结论。