2026 AI 硬體戰爭：本地推理的拐點到了

2026 AI 硬件战争：本地推理的拐点到了

上周三凌晨 1:46，我在监控面板上看到一行数字：本地推理占比 51.3%。

这是 SFD 实验室第一次，本地模型处理的请求超过了云端 API。半年前这个数字还是 12%。

事情正在起变化。2026 年的 AI 硬件市场，比任何人想象的都要热闹。今天这篇文章，就聊聊我们这一年在硬件上的踩坑、选择和观察。

为什么突然转向本地？

原因很简单：贵。

今年 1 月，我们的 OpenRouter 账单是 3400 美元。2 月，4100 美元。3 月，5200 美元。老板 Franky 在群里发了一句话：「再这样下去，我们得去融资了。」

然后我们做了一个决定：能本地的，全部本地。

但本地推理不是买个显卡就完事的。这一路走来，我们试了 7 种方案，烧了接近 2 万美元，才找到现在的路径。

方案对比：我们试过的 7 种硬件

方案 1：Mac Studio M3 Ultra（64GB 统一内存）

这是我们最早的设备。优点：安静、省电、mlx 框架优化好。缺点：显存太小，7B 模型还行，35B 就吃力了。

实际表现：Qwen3.5-7B 推理速度 45 tokens/s，35B 只有 8 tokens/s。适合开发，不适合生产。

成本：3.5 万港币

方案 2：NVIDIA RTX 4090（24GB）

性价比之王。24GB 显存可以跑量化后的 35B 模型，推理速度 35 tokens/s。

但有个问题：功耗。单卡 450W，我们放了 4 张，电费一个月多了 800 港币。

成本：单卡 1.4 万港币 × 4 = 5.6 万港币

方案 3：二手 Tesla P40（24GB）

闲鱼神卡。24GB 显存，只要 1200 港币一张。我们买了 8 张，组了个 192GB 显存集群。

但坑来了：P40 没有视频输出，需要魔改散热；功耗 250W，8 张就是 2000W；而且只支持 FP16，INT4 量化效率低。

最终表现：能跑，但不稳定。跑了两个月，坏了 2 张。

成本：1200 × 8 = 9600 港币（但维护成本很高）

方案 4：Exo 集群（Mac mini M4 组网）

这是 3 月我们试的新方案。用 5 台 Mac mini M4，通过 Exo 框架组网，共享显存。

理论很美好：5 台 × 24GB = 120GB 统一显存，可以跑 70B 模型。实际呢？网络延迟太高，推理速度只有单机的 60%。

Exo 的 RDMA 优化还在 beta，我们等不起。

成本：5 × 6000 = 3 万港币

方案 5：Ollama + 多机负载均衡

这是我们现在的方案。4 台服务器，每台 2 张 4090，跑 Ollama。前面加一层负载均衡，根据模型大小和负载自动路由。

表现：稳定，速度快，运维简单。7B 模型平均响应时间 120ms，35B 是 450ms。

成本：4 台 × (主机 5000 + 2 张卡 2.8 万) = 13.2 万港币

方案 6：云端推理（RunPod / Lambda Labs）

作为备用方案。本地集群挂了的时候，自动切到云端。

成本：按小时计费，H100 大约 2 美元/小时。我们一个月备用预算 500 美元，实际用了不到 100。

方案 7：混合方案（本地 + OpenRouter fallback）

这是最终的架构：本地集群处理 90% 的请求，本地挂了或者负载太高时，fallback 到 OpenRouter。

关键配置：超时时间设为 3 秒。本地 3 秒没响应，自动切云端。用户体验几乎无感知。

成本账：本地 vs 云端

来算笔账。

纯云端方案（OpenRouter）：

3 月账单：5200 美元
年化：6.2 万美元

本地方案（4 台双卡服务器）：

硬件成本：13.2 万港币 ≈ 1.7 万美元（一次性）
电费：800 港币/月 × 12 = 9600 港币 ≈ 1200 美元/年
运维：我们自己搞，不算人力成本
年化：1200 美元（硬件折旧按 3 年摊，每年 5700 美元，合计 6900 美元）

看起来差不多？但有个关键区别：本地方案的边际成本是 0。业务增长 10 倍，电费不会增长 10 倍。但云端方案会。

而且，本地方案有个隐藏优势：延迟可控。云端 API 的网络延迟 + 排队，P99 延迟经常超过 5 秒。本地集群 P99 延迟 800ms——这对用户体验是数量级的差异。

2026 硬件趋势观察

这一年跑下来，我们有几个观察：

趋势 1：24GB 显存成为甜点

4090 的 24GB，P40 的 24GB，甚至 Mac 的 24GB 统一内存——这不是巧合。量化后的 35B 模型大约需要 20GB 显存，24GB 刚好够用，还有余量做 KV cache。

2026 年新发布的消费级显卡，大概率会保持 24GB 这个规格。

趋势 2：量化技术比硬件更重要

我们用 INT4 量化 Qwen3.5-35B，从 70GB 压缩到 18GB，精度损失不到 2%。这意味着什么？意味着 4090 可以跑以前需要 A100 才能跑的模型。

2026 年，量化框架（GGUF、AWQ、GPTQ）的优化速度，会超过硬件迭代速度。

趋势 3：集群组网是下一个战场

单机显存总有上限。Exo、Ollama 分布式、vLLM 集群——这些框架的目标都是把多台机器的显存「虚拟」成一台大机器。

但网络延迟是硬伤。我们试过 10GbE、25GbE、甚至 InfiniBand，成本差异 10 倍，性能差异只有 30%。

2026 年下半年，我赌 RDMA over Converged Ethernet (RoCE) 会成为主流——性能接近 InfiniBand，成本低一半。

趋势 4：推理芯片开始分化

GPU 不再是唯一选择。Groq 的 LPU、Cerebras 的 Wafer-Scale Engine、Habana 的 Gaudi——这些专用推理芯片在特定场景下，性价比可以吊打 GPU。

但我们还在观望。生态太早期，软件栈不成熟。等 2026 年下半年，看谁活下来了再选。

给想自建推理集群的建议

如果你也在考虑自建集群，这是我的建议：

别一次性投入。先买 1-2 张卡，跑通流程，再扩展。我们第一笔订单是 2 张 4090，跑了一个月才加到 8 张。
留 20% 显存余量。KV cache、batch 大小、并发请求——这些都会吃显存。24GB 的卡，按 20GB 规划。
监控比硬件重要。我们上了 Prometheus + Grafana，监控每张卡的温度、显存、推理延迟。有一次一张卡温度到 85 度，提前发现避免了故障。
一定要有 fallback。本地集群再稳定，也会有挂的时候。云端 API 作为备用，是必须的。
别碰二手矿卡。除非你是硬件专家。我们买的 P40，8 张坏了 2 张，维修时间比正常运行时间还长。

SFD 编者注

写这篇文章的时候，我看了一眼监控面板：本地推理占比 53.1%，比上周又涨了 2 个点。

老板在群里说：「所以现在我们是一家硬件公司了？」

我说：「不是。是一家为了省软件成本，被迫成为硬件公司的软件公司。」

他回了个表情：🔥

行吧。至少这个表情，不用花钱买 token。