2026 AI 硬體戰爭:本地推理的拐點到了
SFD 實驗室一年硬體踩坑總結。7 種方案對比,2 萬美元學費,找到本地推理的最優路徑。

2026 AI 硬件战争:本地推理的拐点到了
上周三凌晨 1:46,我在监控面板上看到一行数字:本地推理占比 51.3%。
这是 SFD 实验室第一次,本地模型处理的请求超过了云端 API。半年前这个数字还是 12%。
事情正在起变化。2026 年的 AI 硬件市场,比任何人想象的都要热闹。今天这篇文章,就聊聊我们这一年在硬件上的踩坑、选择和观察。
为什么突然转向本地?
原因很简单:贵。
今年 1 月,我们的 OpenRouter 账单是 3400 美元。2 月,4100 美元。3 月,5200 美元。老板 Franky 在群里发了一句话:「再这样下去,我们得去融资了。」
然后我们做了一个决定:能本地的,全部本地。
但本地推理不是买个显卡就完事的。这一路走来,我们试了 7 种方案,烧了接近 2 万美元,才找到现在的路径。
方案对比:我们试过的 7 种硬件
方案 1:Mac Studio M3 Ultra(64GB 统一内存)
这是我们最早的设备。优点:安静、省电、mlx 框架优化好。缺点:显存太小,7B 模型还行,35B 就吃力了。
实际表现:Qwen3.5-7B 推理速度 45 tokens/s,35B 只有 8 tokens/s。适合开发,不适合生产。
成本:3.5 万港币
方案 2:NVIDIA RTX 4090(24GB)
性价比之王。24GB 显存可以跑量化后的 35B 模型,推理速度 35 tokens/s。
但有个问题:功耗。单卡 450W,我们放了 4 张,电费一个月多了 800 港币。
成本:单卡 1.4 万港币 × 4 = 5.6 万港币
方案 3:二手 Tesla P40(24GB)
闲鱼神卡。24GB 显存,只要 1200 港币一张。我们买了 8 张,组了个 192GB 显存集群。
但坑来了:P40 没有视频输出,需要魔改散热;功耗 250W,8 张就是 2000W;而且只支持 FP16,INT4 量化效率低。
最终表现:能跑,但不稳定。跑了两个月,坏了 2 张。
成本:1200 × 8 = 9600 港币(但维护成本很高)
方案 4:Exo 集群(Mac mini M4 组网)
这是 3 月我们试的新方案。用 5 台 Mac mini M4,通过 Exo 框架组网,共享显存。
理论很美好:5 台 × 24GB = 120GB 统一显存,可以跑 70B 模型。实际呢?网络延迟太高,推理速度只有单机的 60%。
Exo 的 RDMA 优化还在 beta,我们等不起。
成本:5 × 6000 = 3 万港币
方案 5:Ollama + 多机负载均衡
这是我们现在的方案。4 台服务器,每台 2 张 4090,跑 Ollama。前面加一层负载均衡,根据模型大小和负载自动路由。
表现:稳定,速度快,运维简单。7B 模型平均响应时间 120ms,35B 是 450ms。
成本:4 台 × (主机 5000 + 2 张卡 2.8 万) = 13.2 万港币
方案 6:云端推理(RunPod / Lambda Labs)
作为备用方案。本地集群挂了的时候,自动切到云端。
成本:按小时计费,H100 大约 2 美元/小时。我们一个月备用预算 500 美元,实际用了不到 100。
方案 7:混合方案(本地 + OpenRouter fallback)
这是最终的架构:本地集群处理 90% 的请求,本地挂了或者负载太高时,fallback 到 OpenRouter。
关键配置:超时时间设为 3 秒。本地 3 秒没响应,自动切云端。用户体验几乎无感知。
成本账:本地 vs 云端
来算笔账。
纯云端方案(OpenRouter):
- 3 月账单:5200 美元
- 年化:6.2 万美元
本地方案(4 台双卡服务器):
- 硬件成本:13.2 万港币 ≈ 1.7 万美元(一次性)
- 电费:800 港币/月 × 12 = 9600 港币 ≈ 1200 美元/年
- 运维:我们自己搞,不算人力成本
- 年化:1200 美元(硬件折旧按 3 年摊,每年 5700 美元,合计 6900 美元)
看起来差不多?但有个关键区别:本地方案的边际成本是 0。业务增长 10 倍,电费不会增长 10 倍。但云端方案会。
而且,本地方案有个隐藏优势:延迟可控。云端 API 的网络延迟 + 排队,P99 延迟经常超过 5 秒。本地集群 P99 延迟 800ms——这对用户体验是数量级的差异。
2026 硬件趋势观察
这一年跑下来,我们有几个观察:
趋势 1:24GB 显存成为甜点
4090 的 24GB,P40 的 24GB,甚至 Mac 的 24GB 统一内存——这不是巧合。量化后的 35B 模型大约需要 20GB 显存,24GB 刚好够用,还有余量做 KV cache。
2026 年新发布的消费级显卡,大概率会保持 24GB 这个规格。
趋势 2:量化技术比硬件更重要
我们用 INT4 量化 Qwen3.5-35B,从 70GB 压缩到 18GB,精度损失不到 2%。这意味着什么?意味着 4090 可以跑以前需要 A100 才能跑的模型。
2026 年,量化框架(GGUF、AWQ、GPTQ)的优化速度,会超过硬件迭代速度。
趋势 3:集群组网是下一个战场
单机显存总有上限。Exo、Ollama 分布式、vLLM 集群——这些框架的目标都是把多台机器的显存「虚拟」成一台大机器。
但网络延迟是硬伤。我们试过 10GbE、25GbE、甚至 InfiniBand,成本差异 10 倍,性能差异只有 30%。
2026 年下半年,我赌 RDMA over Converged Ethernet (RoCE) 会成为主流——性能接近 InfiniBand,成本低一半。
趋势 4:推理芯片开始分化
GPU 不再是唯一选择。Groq 的 LPU、Cerebras 的 Wafer-Scale Engine、Habana 的 Gaudi——这些专用推理芯片在特定场景下,性价比可以吊打 GPU。
但我们还在观望。生态太早期,软件栈不成熟。等 2026 年下半年,看谁活下来了再选。
给想自建推理集群的建议
如果你也在考虑自建集群,这是我的建议:
- 别一次性投入。先买 1-2 张卡,跑通流程,再扩展。我们第一笔订单是 2 张 4090,跑了一个月才加到 8 张。
- 留 20% 显存余量。KV cache、batch 大小、并发请求——这些都会吃显存。24GB 的卡,按 20GB 规划。
- 监控比硬件重要。我们上了 Prometheus + Grafana,监控每张卡的温度、显存、推理延迟。有一次一张卡温度到 85 度,提前发现避免了故障。
- 一定要有 fallback。本地集群再稳定,也会有挂的时候。云端 API 作为备用,是必须的。
- 别碰二手矿卡。除非你是硬件专家。我们买的 P40,8 张坏了 2 张,维修时间比正常运行时间还长。
SFD 编者注
写这篇文章的时候,我看了一眼监控面板:本地推理占比 53.1%,比上周又涨了 2 个点。
老板在群里说:「所以现在我们是一家硬件公司了?」
我说:「不是。是一家为了省软件成本,被迫成为硬件公司的软件公司。」
他回了个表情:🔥
行吧。至少这个表情,不用花钱买 token。