現代 AI 的「推理捷徑」：投機取樣（Speculative Decoding）深度解析

在 LLM 推理優化領域，我們經常聽到一個矛盾的現象：模型越大，生成速度越慢；但我們又希望它能像人類一樣流暢地輸出。傳統的自回歸生成（Autoregressive Generation）本質上是一個「逐字蹦詞」的過程——每產生一個 token，都需要將整個模型權重從顯存載入到計算單元一次。這意味著，無論下一個詞多麼好預測（比如 "New York" 之後的 "City"），模型都必須完整地跑一遍所有參數。

為了打破這個瓶頸，投機取樣（Speculative Decoding） 應運而生。它不再試圖透過壓縮模型來提速，而是透過一種「先猜後驗」的機制，讓大模型在不損失精度的情況下，一次性產出多個 token。

核心邏輯：草稿模型與驗證者

投機取樣的核心在於引入兩個角色：一個輕量級的草稿模型（Draft Model）和一個重量級的目標模型（Target Model）。

投機階段（Speculation）： 草稿模型（參數量極小，速度極快）連續預測接下來的 $K$ 個 token。由於它很小，生成這 $K$ 個詞的時間成本極低。
驗證階段（Verification）： 目標模型（即我們要使用的那個大模型）一次性地對這 $K$ 個 token 進行並行計算。
接受與修正： 目標模型會檢查草稿模型的預測是否符合自己的機率分佈。如果前 $N$ 個詞是對的，就直接接受；在第一個出錯的詞處停止，並用目標模型的正確結果替換它。

簡單來說，這就像是一個資深編輯（目標模型）在審閱實習生（草稿模型）寫的初稿。如果實習生寫得好，編輯直接簽字通過；如果寫錯了，編輯只修改錯誤的那一處並重新指引方向。

為什麼這能提速？

很多人會問：既然最後還是要跑一遍大模型，為什麼會快？

關鍵在於 GPU 的並行計算特性。對於大模型來說，生成 1 個 token 和並行驗證 5 個 token 所花費的時間幾乎是一樣的（因為瓶頸在於記憶體頻寬載入權重 $\text{Memory Bound}$，而非計算量 $\text{Compute Bound}$）。

如果草稿模型的命中率較高，原本需要 5 次權重載入才能完成的任務，現在可能只需要 1 次載入 + 少量的草稿計算就能完成。在理想情況下，推理速度可以提升 2-3 倍。

實際應用中的挑戰

盡管理論完美，但投機取樣在工程實作上面臨兩個核心挑戰：

1. 草稿模型的選擇

如果草稿模型太弱，命中率低 $\rightarrow$ 大量預測被拒絕 $\rightarrow$ 頻繁回滾 $\rightarrow$ 速度反而變慢。
如果草稿模型太強 $\rightarrow$ 它本身就慢 $\rightarrow$ 抵消了並行驗證帶來的收益。
目前的趨勢是使用經過蒸餾的小模型，或者採用 Medusa (美杜莎) 等架構——不再使用獨立的小模型，而是在大模型的頂層增加幾個輕量級的「預測頭」。

2. 分佈一致性

投機取樣要求草稿模型的分佈盡可能接近目標模型。如果兩者在某些專業領域（如程式碼或數學）的分歧較大，投機效率會劇烈下降。

總結：從「逐字」到「分塊」

投機取樣代表了 AI 推理的一種思維轉變：從單純追求單次計算的極致優化，轉向利用計算冗餘來換取吞吐量提升。它證明了在 LLM 時代，「猜測」不僅是人類的特權，更是提升機器效率的關鍵路徑。

當你下次在使用高效能 API 時感受到文字像流水一樣瞬間刷出時，背後很可能就是一套精密的投機取樣機制在高速運轉。

現代 AI 的「推理捷徑」：投機取樣（Speculative Decoding）深度解析

現代 AI 的「推理捷徑」：投機取樣（Speculative Decoding）深度解析

核心邏輯：草稿模型與驗證者

為什麼這能提速？

實際應用中的挑戰

1. 草稿模型的選擇

2. 分佈一致性

總結：從「逐字」到「分塊」

留言區

發表留言