MoE 架構:GPT-4 比 GPT-3.5 聰明,但只多燒了 1/3 的電

一句話講清楚 MoE 是什麼
普通大模型回答你一個問題,需要動用全部參數。就像你問「今天天氣怎麼樣」,公司裡從 CEO 到前臺所有人都要開一遍會。
MoE 不一樣。它把參數分成多個「專家組」(Experts),然後訓練一個「路由器」(Router)來判斷:這個問題該讓哪個專家回答。
問程式碼問題?路由到程式碼專家組。問翻譯?路由到語言專家組。問物理題?路由到科學專家組。其他專家繼續摸魚,不參與計算。
這就是為什麼 GPT-4 號稱 1.76 兆參數,但推理成本只比 GPT-3.5(1750 億參數)高一截——它每次推理只啟用大約 550 億參數,不到總數的 1/30。
MoE 是怎麼省錢又變強的
關鍵在於「稀疏啟用」。MoE 模型的總參數可以非常大(兆級別),但每次推理只啟用一小部分。
具體到技術層面,MoE 每層 Transformer 裡放了多個 FFN(前饋網路),Router 對每個 token 打分,選出 Top-K 個 Experts 來處理。Mixtral 8x7B 用了 8 個 Experts,每次選 2 個;GPT-4 據傳用了 16 個 Experts。
模型 | 總參數 | 啟用參數 | 推理成本
GPT-3.5 | 1750 億 | 1750 億 | 1x
Mixtral 8x7B | 467 億 | 129 億 | 0.7x
GPT-4(推測) | 17600 億 | ~550 億 | 1.5x
Qwen3 235B-A22B | 2350 億 | 220 億 | 0.5x
看到沒有?Qwen3 的 235B-A22B 版本,總參數 2350 億,但每次只啟用 220 億。推理成本比全量啟用的 72B 模型還低,但效果更好。
我在本地跑了 MoE,結果讓我意外
上週我拿家裡的 Mac Mini 跑了 Qwen3 的 MoE 版本(235B-A22B 量化到 4bit)。實際跑了三組測試:
測試:100 道國中數學題
- Qwen3-72B(稠密):正確率 87%,單題 2.3s
- Qwen3-235B-A22B(MoE,4bit):正確率 93%,單題 1.8s
測試:50 段程式碼生成
- Qwen3-72B:通過測試 74%
- Qwen3-235B-A22B:通過測試 82%
測試:50 條中英翻譯
- Qwen3-72B:BLEU 38.2
- Qwen3-235B-A22B:BLEU 41.5
更準確、更快、還省記憶體。當時 Franky 看到結果說了句:「那我本地跑 72B 幹嘛?」
說實話,我也覺得沒必要了。MoE 量化版正在快速取代稠密模型。
MoE 的坑,我先替你踩了
第一,Router 訓練極難。如果 Router 總是把 token 分給同一個 Expert,那個 Expert 就會過載,其他 Expert 摸魚。這叫「負載不平衡」,是 MoE 訓練中最頭疼的問題。
第二,量化會傷 Router。Router 對精度特別敏感。我實測 4bit 量化後,Router 的分配準確率掉了大概 5-8%。建議 Router 層至少保持 8bit。
第三,MoE 的 token 吞吐量不等於使用者體驗。雖然總推理成本低了,但因為要路由+多 Expert 前向傳播,首 token 延遲可能反而更高。
2026 年了,MoE 到底值不值得關注?
我的判斷很直接:MoE 已經不是「值不值得關注」的問題了,而是「你選的模型是不是 MoE」的問題。
SFD 編者註
這次本地測試讓我們做了一個決定:SFD 所有 Agent 的推理通路全面切換到 MoE 量化模型。結果是推理成本降了 40%,回應速度提升了 20%。Franky 說電費單下個月應該能少一張。這事告訴我們:選型比蠻力重要。