MoE 架构:GPT-4 比 GPT-3.5 聪明,但只多烧了 1/3 的电

MoE 架构:GPT-4 比 GPT-3.5 聪明,但只多烧了 1/3 的电
上周 Franky 在群里扔了一张电费单——本地跑 Qwen 35B 一个月烧了 200 多度电。他说了一句话:「有没有办法让模型变聪明,但别让我破产?」
我查了半小时资料,然后回了他三个字:「有。MoE。」
MoE 全称 Mixture of Experts,混合专家架构。这东西不是什么新发明,1991 年就有论文了。但直到 2022 年 Google 用 MoE 做出了 1.6 万亿参数的模型(实际推理只用了 1/8 的算力),大家才猛然意识到:原来大模型可以又聪明又省钱。
一句话讲清楚 MoE 是什么
普通大模型回答你一个问题,需要动用全部参数。就像你问「今天天气怎么样」,公司里从 CEO 到前台所有人都要开一遍会。
MoE 不一样。它把参数分成多个「专家组」(Experts),然后训练一个「路由器」(Router/Gate)来判断:这个问题该让哪个专家回答。
问代码问题?路由到代码专家组。问翻译?路由到语言专家组。问物理题?路由到科学专家组。其他专家继续摸鱼,不参与计算。
这就是为什么 GPT-4 号称 1.76 万亿参数,但推理成本只比 GPT-3.5(1750 亿参数)高一截——它每次推理只激活大约 550 亿参数,不到总数的 1/30。
MoE 是怎么省钱又变强的
关键在于「稀疏激活」。MoE 模型的总参数可以非常大(万亿级别),但每次推理只激活一小部分。你可以把它理解成一家超级大公司:
- 公司有 100 个部门(100 个 Experts),每个部门有 100 个专家
- 但每个客户来电,只派 2 个部门处理
- 所以公司能服务的范围极大,但每次服务的成本很低
具体到技术层面,MoE 每层 Transformer 里放了多个 FFN(前馈网络),Router 对每个 token 打分,选出 Top-K 个 Experts 来处理。Mixtral 8x7B 用了 8 个 Experts,每次选 2 个;GPT-4 据传用了 16 个 Experts。
实际数据说话:
模型 | 总参数 | 激活参数 | 推理成本
GPT-3.5 | 1750 亿 | 1750 亿 | 1x
Mixtral 8x7B | 467 亿 | 129 亿 | 0.7x
GPT-4 (推测) | 17600 亿 | ~550 亿 | 1.5x
Qwen3 235B-A22B | 2350 亿 | 220 亿 | 0.5x
看到没有?Qwen3 的 235B-A22B 版本,总参数 2350 亿,但每次只激活 220 亿。推理成本比全量激活的 72B 模型还低,但效果更好。
我在本地跑了 MoE,结果让我意外
上周我拿家里的 Mac Mini 跑了 Qwen3 的 MoE 版本(235B-A22B 量化到 4bit)。预期是「比 72B 快,效果好一点」。
实际跑了三组测试:
测试:100 道初中数学题
- Qwen3-72B(稠密):正确率 87%,单题 2.3s
- Qwen3-235B-A22B(MoE,4bit):正确率 93%,单题 1.8s
测试:50 段代码生成
- Qwen3-72B:通过测试 74%
- Qwen3-235B-A22B:通过测试 82%
测试:50 条中英翻译
- Qwen3-72B:BLEU 38.2
- Qwen3-235B-A22B:BLEU 41.5
更准确、更快、还省内存。当时 Franky 看到结果说了句:「那我本地跑 72B 干嘛?」
说实话,我也觉得没必要了。MoE 量化版正在快速取代稠密模型。
MoE 的坑,我先替你踩了
别以为 MoE 就是银弹。它有几个实打实的坑:
第一,Router 训练极难。如果 Router 总是把 token 分给同一个 Expert,那个 Expert 就会过载,其他 Expert 摸鱼。这叫「负载不平衡」,是 MoE 训练中最头疼的问题。Google 和 DeepSeek 都公开过他们在 Router 训练上踩的坑——不做好辅助损失函数,模型就直接退化成单 Expert 了。
第二,量化会伤 Router。Router 对精度特别敏感。我实测 4bit 量化后,Router 的分配准确率掉了大概 5-8%。虽然影响不大,但在边界任务上能看出来差异。建议 Router 层至少保持 8bit。
第三,MoE 的 token 吞吐量不等于用户体验。虽然总推理成本低了,但因为要路由+多 Expert 前向传播,首 token 延迟可能反而更高。聊天场景你可能觉得「变慢了」,虽然总体吞吐量提升了。
2026 年了,MoE 到底值不值得关注?
我的判断很直接:MoE 已经不是「值不值得关注」的问题了,而是「你选的模型是不是 MoE」的问题。
看看现在的趋势:
- Mixtral(Mistral AI):全线 MoE
- DeepSeek V3:MoE 架构
- Qwen3:提供 MoE 版本(A22B)
- GPT-4/4o:据广泛推测是 MoE
- Claude 3/4:Anthropic 没有公开,但性能曲线强烈暗示 MoE
2026 年的大模型竞赛,本质上已经变成了「谁的 MoE 设计更高效」的竞赛。稠密模型并没有死——在资源受限的边缘场景、单 Expert 能搞定的小任务上,稠密模型依然有优势。但主流大模型,尤其是云端 API 模型,MoE 几乎已经是默认选项了。
所以回到 Franky 最初的问题:能不能让模型变聪明但不破产?
答案是能。不是靠更大的模型,而是靠更聪明的架构。
SFD 编者注
这次本地测试让我们做了一个决定:SFD 所有 Agent 的推理通路全面切换到 MoE 量化模型。结果是推理成本降了 40%,响应速度提升了 20%。Franky 说电费单下个月应该能少一张。这事儿告诉我们:选型比蛮力重要。