OpenRouter 免費時代終結：我們為什麼全面轉向本地推理？

一、突發：OpenRouter 免費政策落幕

2026 年 4 月初，OpenRouter 官方發佈公告：自 4 月 8 日起，所有模型調用結束免費試用，全面進入付費時代。

這一變化對依賴 OpenRouter 的開發者意味著什麼？

成本激增：以 Qwen3.5-32B 為例，每百萬 token 輸入$0.15，輸出$0.60。日均 10 萬次調用的團隊，月成本輕鬆突破$5000
延遲不可控：跨境 API 調用，平均延遲 200-800ms，高峰期甚至超過 2 秒
隱私風險：所有推理數據必須經過第三方服務器，敏感信息無法完全隔離

我們在 4 月 6 日收到通知後，立即啟動應急預案。48 小時內，完成從 API 依賴到本地推理的完整遷移。

二、為什麼選擇本地推理？

2.1 私隱：數據不出內網

本地推理的最大優勢是數據完全可控。

所有推理請求在局域網內完成
無需擔心 API 日誌被記錄或濫用
符合企業級數據安全合規要求

對於處理用戶數據、商業機密或敏感信息的團隊，這是唯一選擇。

2.2 成本：一次投入，永久免費

讓我們算一筆賬：

API 方案（按日均 10 萬 tokens 計算）：

Qwen3.5-32B：$0.15/1M input + $0.60/1M output
日均成本：約$15-25
月成本：$450-750
年成本：$5400-9000

本地方案（M3 Ultra 96GB）：

硬件成本：約$4000/台（兩台$8000）
電費：約$50/月
年成本：約$8600（含硬件折舊）

回本周期：約 12-18 個月。之後每年節省$5000+。

2.3 延遲：毫秒級響應

本地推理的延遲表現：

首 token 時間：50-150ms（vs API 200-800ms）
總生成時間：取決於輸出長度，但無網絡開銷
並發能力：單卡可同時處理 10-20 個請求

對於實時交互場景（如客服對話、代碼補全），這是決定性優勢。

三、SFD 實驗室部署方案：MS01 + MS02 雙機集群

3.1 硬件配置

節點	型號	內存	用途
MS01	Mac Studio M3 Ultra	96GB	Qwen3.5-27B-8bit 通用推理
MS02	Mac Studio M3 Ultra	96GB	Qwen3-Coder-Next-5bit 代碼專用

選擇 M3 Ultra 的理由：

統一內存架構：96GB 顯存可直接加載 27B 參數模型（8bit 量化）
能效比優秀：滿載功耗約 300W，遠低於同性能 GPU 方案
oMLX 框架支持：Apple Silicon 原生優化，推理速度提升 40%

3.2 軟件棧

推理框架：oMLX（Apple MLX 的優化分支）
模型格式：GGUF 8bit/5bit 量化
API 兼容：OpenAI 兼容端點，零代碼遷移
服務發現：局域網 DNS + 負載均衡

3.3 網絡拓撲

┌─────────────┐     ┌─────────────┐
│   MS01      │     │   MS02      │
│ 192.168.88.21│     │ 192.168.88.22│
│ :8000/v1    │     │ :8000/v1    │
└──────┬──────┘     └──────┬──────┘
       │                   │
       └────────┬──────────┘
                │
       ┌────────▼────────┐
       │  Nginx 負載均衡  │
       │   192.168.88.10 │
       └────────┬────────┘
                │
       ┌────────▼────────┐
       │   應用服務器     │
       └─────────────────┘

API 端點：

MS01: http://192.168.88.21:8000/v1
MS02: http://192.168.88.22:8000/v1
負載均衡：http://192.168.88.10:8000/v1

四、性能對比：256k vs 64k 上下文窗口

在遷移過程中，我們做了一個關鍵優化：將上下文窗口從 256k 降至 64k。

4.1 為什麼降低上下文？

推理速度：64k 窗口的注意力計算量是 256k 的 1/4，生成速度提升 3-4 倍
內存佔用：KV Cache 佔用從 48GB 降至 12GB，可容納更高並發
實際需求：95% 的對話場景不需要超過 64k 上下文

4.2 實測數據

指標	256k 窗口	64k 窗口	提升
首 token 延遲	380ms	95ms	4×
生成速度	18 tokens/s	65 tokens/s	3.6×
並發請求數	4	16	4×
內存佔用	78GB	42GB	1.9×

結論：對於大多數應用場景，64k 是性能和成本的甜蜜點。

五、成本分析：付費 API vs 本地硬件

5.1 三年總擁有成本（TCO）

項目	API 方案	本地方案	差額
硬件投入	$0	$8000	-$8000
API 費用（3 年）	$21600	$0	+$21600
電費（3 年）	$0	$1800	-$1800
維護成本	$0	$1000	-$1000
總計	$21600	$10800	+$10800

本地方案 3 年節省：$10800

5.2 隱性成本

API 方案的隱性成本常被忽視：

停機風險：API 服務宕機，業務立即中斷
速率限制：高峰期可能被限流
模型變更：提供商可隨時下架或修改模型
合規風險：數據出境可能違反 GDPR/網絡安全法

本地方案的一次性投入，換來的是可控性和確定性。

六、未來趨勢：本地 AI 是必然選擇

我們判斷，2026-2027 年將是本地推理的爆發年：

6.1 硬件趨勢

Apple Silicon 持續升級，M4 Ultra 預計支持 128GB 統一內存
NVIDIA RTX 5090 顯存提升至 32GB，多卡方案更親民
國產 AI 芯片（華為昇騰、寒武紀）性價比優勢明顯

6.2 模型趨勢

量化技術成熟：8bit/5bit 量化幾乎無損，4bit 也可用
小模型崛起：7B-27B 參數模型在特定任務上媲美 70B+
開源生態：Llama、Qwen、Mistral 持續迭代，閉源差距縮小

6.3 軟件趨勢

oMLX、llama.cpp、vLLM 等框架持續優化
一鍵部署工具鏈成熟，運維門檻降低
雲邊端協同：本地推理 + 雲端備份的混合架構

我們的建議：如果你的團隊日均 API 調用超過 5 萬次，或處理敏感數據，現在就是遷移的最佳時機。

七、SFD 編者註

這次遷移對 SFD 實驗室是一次重要考驗。我們在 48 小時內完成：

硬件採購和配置（2 台 M3 Ultra）
oMLX 框架部署和調優
API 端點兼容測試
全流量切換和驗收

經驗教訓：

提前預案：不要等到 API 漲價才行動，平時就要評估本地方案
量化選型：8bit 是質量和速度的平衡點，5bit 適合代碼等容錯場景
監控先行：部署後立即接入 Prometheus + Grafana，監控溫度、內存、QPS

本地推理不是退步，而是技術成熟的標誌。當工具足夠簡單、成本足夠低時，把數據留在自己手裡是唯一理性的選擇。