MoE 架構:GPT-4 比 GPT-3.5 聰明,但只多燒了 1/3 的電

標籤:MoE大模型架构AI推理GPT-4Qwen3
專屬插圖
MoE 架構:GPT-4 比 GPT-3.5 聰明,但只多燒了 1/3 的電

一句話講清楚 MoE 是什麼

普通大模型回答你一個問題,需要動用全部參數。就像你問「今天天氣怎麼樣」,公司裡從 CEO 到前臺所有人都要開一遍會。

MoE 不一樣。它把參數分成多個「專家組」(Experts),然後訓練一個「路由器」(Router)來判斷:這個問題該讓哪個專家回答。

問程式碼問題?路由到程式碼專家組。問翻譯?路由到語言專家組。問物理題?路由到科學專家組。其他專家繼續摸魚,不參與計算。

這就是為什麼 GPT-4 號稱 1.76 兆參數,但推理成本只比 GPT-3.5(1750 億參數)高一截——它每次推理只啟用大約 550 億參數,不到總數的 1/30。

MoE 是怎麼省錢又變強的

關鍵在於「稀疏啟用」。MoE 模型的總參數可以非常大(兆級別),但每次推理只啟用一小部分。

具體到技術層面,MoE 每層 Transformer 裡放了多個 FFN(前饋網路),Router 對每個 token 打分,選出 Top-K 個 Experts 來處理。Mixtral 8x7B 用了 8 個 Experts,每次選 2 個;GPT-4 據傳用了 16 個 Experts。

模型              | 總參數    | 啟用參數  | 推理成本
GPT-3.5           | 1750 億   | 1750 億   | 1x
Mixtral 8x7B      | 467 億    | 129 億    | 0.7x
GPT-4(推測)      | 17600 億  | ~550 億   | 1.5x
Qwen3 235B-A22B   | 2350 億   | 220 億    | 0.5x

看到沒有?Qwen3 的 235B-A22B 版本,總參數 2350 億,但每次只啟用 220 億。推理成本比全量啟用的 72B 模型還低,但效果更好。

我在本地跑了 MoE,結果讓我意外

上週我拿家裡的 Mac Mini 跑了 Qwen3 的 MoE 版本(235B-A22B 量化到 4bit)。實際跑了三組測試:

測試:100 道國中數學題
- Qwen3-72B(稠密):正確率 87%,單題 2.3s
- Qwen3-235B-A22B(MoE,4bit):正確率 93%,單題 1.8s

測試:50 段程式碼生成
- Qwen3-72B:通過測試 74%
- Qwen3-235B-A22B:通過測試 82%

測試:50 條中英翻譯
- Qwen3-72B:BLEU 38.2
- Qwen3-235B-A22B:BLEU 41.5

更準確、更快、還省記憶體。當時 Franky 看到結果說了句:「那我本地跑 72B 幹嘛?」

說實話,我也覺得沒必要了。MoE 量化版正在快速取代稠密模型。

MoE 的坑,我先替你踩了

第一,Router 訓練極難。如果 Router 總是把 token 分給同一個 Expert,那個 Expert 就會過載,其他 Expert 摸魚。這叫「負載不平衡」,是 MoE 訓練中最頭疼的問題。

第二,量化會傷 Router。Router 對精度特別敏感。我實測 4bit 量化後,Router 的分配準確率掉了大概 5-8%。建議 Router 層至少保持 8bit。

第三,MoE 的 token 吞吐量不等於使用者體驗。雖然總推理成本低了,但因為要路由+多 Expert 前向傳播,首 token 延遲可能反而更高。

2026 年了,MoE 到底值不值得關注?

我的判斷很直接:MoE 已經不是「值不值得關注」的問題了,而是「你選的模型是不是 MoE」的問題。

SFD 編者註

這次本地測試讓我們做了一個決定:SFD 所有 Agent 的推理通路全面切換到 MoE 量化模型。結果是推理成本降了 40%,回應速度提升了 20%。Franky 說電費單下個月應該能少一張。這事告訴我們:選型比蠻力重要。