現代 AI 系統的「推理加速器」：Speculative Decoding（投機取樣）深度解析

在 LLM（大型語言模型）的生產環境中，使用者最直觀的痛點是「打字機」速度太慢。儘管 H100 等頂級 GPU 算力驚人，但 LLM 的生成過程本質上是自回歸（Autoregressive）的：每產生一個 token，都需要將整個模型的所有參數從記憶體載入到計算核心一次。這意味著，無論你想要生成一個簡單的「Yes」還是複雜的程式碼片段，GPU 的記憶體頻寬瓶頸（Memory Bound）決定了單 token 的生成速度上限。

為了打破這個物理瓶頸，一種名為 Speculative Decoding（投機取樣/推測解碼） 的技術成為了目前產業界提升推理吞吐量的核心手段。

1. 核心矛盾：算力過剩與頻寬不足

要理解投機取樣，首先要明白為什麼 LLM 推理慢。

在推理時，GPU 的計算單元（CUDA Cores/Tensor Cores）其實大部分時間在「等資料」。載入一個 70B 參數的模型需要巨大的頻寬，而計算一個 token 所需的浮點運算量相對較小。結果就是：GPU 的算力利用率極低，但記憶體頻寬被佔滿。

如果我們能一次性讓 GPU 計算多個 token，而不是一個接一個地跑 70B 次模型，速度就能提升。但問題是：LLM 是機率預測，你不能預先知道下一個 token 是什麼。

2. 投機取樣的邏輯：用「廉價」預測「昂貴」

投機取樣的核心思想是：引入一個極小的草稿模型（Draft Model），用來預先猜測接下來的幾個 token，然後由大模型（Target Model）一次性進行平行驗證。

工作流程分解：

草稿階段 (Drafting)：使用一個輕量級模型（例如 1B 參數的模型）快速連續生成 $K$ 個 token（例如 $K=5$）。因為小模型參數少，載入速度極快，且不觸發嚴重的頻寬瓶頸。
驗證階段 (Verification)：將這 $K$ 個猜測的 token 以及原始輸入一次性餵給大模型（例如 70B 模型）。
平行判定：大模型在一次前向傳播中，同時計算這 $K+1$ 個位置的機率分佈。
接受與修正：
如果大模型認為小模型的第 1 個猜測是正確的（符合取樣閾值），則接受它；
如果第 2 個錯了，則立即停止接受，並使用大模型在該位置生成的正確 token 進行修正。
將所有被接受的 token 一次性輸出給使用者。

為什麼這樣更快？

雖然增加了小模型的開銷，但關鍵在於：大模型的驗證過程是平行的。驗證 5 個 token 的時間與生成 1 個 token 的時間幾乎相同（因為記憶體載入開銷是一樣的）。如果小模型能猜對 3 個，那麼原本需要 4 次大模型前向傳播的任務，現在只需要 1 次驗證 + 少量的草稿開銷即可完成。

3. 實戰中的權衡與挑戰

投機取樣並非在所有場景下都有效，其效能增益取決於 接受率 (Acceptance Rate)。

高接受率 $\rightarrow$ 高加速比：當任務簡單（如重複性文字、程式碼補全、格式化輸出）時，小模型很容易猜對，加速比可達 $2\times \sim 3\times$。
低接受率 $\rightarrow$ 反而變慢：如果任務極其複雜或具有高度隨機性，小模型頻繁猜錯 $\rightarrow$ 大模型頻繁修正 $\rightarrow$ 總耗時 = 小模型時間 + 大模型時間 $\gt$ 原本的大模型時間。

當前的主流優化方向：

Medusa (美杜莎)：不再使用獨立的小模型，而是在大模型的頂層增加多個「預測頭」（Heads），每個頭負責預測未來第 $N$ 個 token。這樣消除了切換模型的開銷。
Lookahead Decoding：透過快取已生成的片段進行模式比對，無需訓練額外的草稿模型。

4. 對開發者的啟示

如果你在部署 LLM 服務並面臨延遲壓力，可以考慮以下路徑：
1. 評估文字分佈：如果你的業務場景輸出高度結構化（如 JSON），投機取樣會有極佳表現。
2. 選擇合適的 Draft Model：草稿模型應與目標模型在同一資料集上對齊（例如 Llama-70B 配 Llama-1B）。
3. 動態調整 $K$ 值：根據即時接受率動態調整猜測長度 $K$，以平衡計算開銷和潛在收益。

投機取樣將 AI 推理從單純的「暴力計算」轉向了「機率博弈」，它證明了在硬體瓶頸面前，演算法層面的「以快打慢」才是真正的工程藝術。

現代 AI 系統的「推理加速器」：Speculative Decoding（投機取樣）深度解析

現代 AI 系統的「推理加速器」：Speculative Decoding（投機取樣）深度解析

1. 核心矛盾：算力過剩與頻寬不足

2. 投機取樣的邏輯：用「廉價」預測「昂貴」

工作流程分解：

為什麼這樣更快？

3. 實戰中的權衡與挑戰

當前的主流優化方向：

4. 對開發者的啟示

留言區

發表留言