OpenRouter 免費時代終結:我們為什麼全面轉向本地推理?
OpenRouter 結束免費政策,SFD 實驗室 48 小時內遷移至雙 M3 Ultra 本地推理集群。
专属插画

一、突發:OpenRouter 免費政策落幕
2026 年 4 月初,OpenRouter 官方發佈公告:自 4 月 8 日起,所有模型調用結束免費試用,全面進入付費時代。
這一變化對依賴 OpenRouter 的開發者意味著什麼?
- 成本激增:以 Qwen3.5-32B 為例,每百萬 token 輸入$0.15,輸出$0.60。日均 10 萬次調用的團隊,月成本輕鬆突破$5000
- 延遲不可控:跨境 API 調用,平均延遲 200-800ms,高峰期甚至超過 2 秒
- 隱私風險:所有推理數據必須經過第三方服務器,敏感信息無法完全隔離
我們在 4 月 6 日收到通知後,立即啟動應急預案。48 小時內,完成從 API 依賴到本地推理的完整遷移。
二、為什麼選擇本地推理?
2.1 私隱:數據不出內網
本地推理的最大優勢是數據完全可控。
- 所有推理請求在局域網內完成
- 無需擔心 API 日誌被記錄或濫用
- 符合企業級數據安全合規要求
對於處理用戶數據、商業機密或敏感信息的團隊,這是唯一選擇。
2.2 成本:一次投入,永久免費
讓我們算一筆賬:
API 方案(按日均 10 萬 tokens 計算):
- Qwen3.5-32B:$0.15/1M input + $0.60/1M output
- 日均成本:約$15-25
- 月成本:$450-750
- 年成本:$5400-9000
本地方案(M3 Ultra 96GB):
- 硬件成本:約$4000/台(兩台$8000)
- 電費:約$50/月
- 年成本:約$8600(含硬件折舊)
回本周期:約 12-18 個月。之後每年節省$5000+。
2.3 延遲:毫秒級響應
本地推理的延遲表現:
- 首 token 時間:50-150ms(vs API 200-800ms)
- 總生成時間:取決於輸出長度,但無網絡開銷
- 並發能力:單卡可同時處理 10-20 個請求
對於實時交互場景(如客服對話、代碼補全),這是決定性優勢。
三、SFD 實驗室部署方案:MS01 + MS02 雙機集群
3.1 硬件配置
| 節點 | 型號 | 內存 | 用途 |
|---|---|---|---|
| MS01 | Mac Studio M3 Ultra | 96GB | Qwen3.5-27B-8bit 通用推理 |
| MS02 | Mac Studio M3 Ultra | 96GB | Qwen3-Coder-Next-5bit 代碼專用 |
選擇 M3 Ultra 的理由:
- 統一內存架構:96GB 顯存可直接加載 27B 參數模型(8bit 量化)
- 能效比優秀:滿載功耗約 300W,遠低於同性能 GPU 方案
- oMLX 框架支持:Apple Silicon 原生優化,推理速度提升 40%
3.2 軟件棧
- 推理框架:oMLX(Apple MLX 的優化分支)
- 模型格式:GGUF 8bit/5bit 量化
- API 兼容:OpenAI 兼容端點,零代碼遷移
- 服務發現:局域網 DNS + 負載均衡
3.3 網絡拓撲
┌─────────────┐ ┌─────────────┐
│ MS01 │ │ MS02 │
│ 192.168.88.21│ │ 192.168.88.22│
│ :8000/v1 │ │ :8000/v1 │
└──────┬──────┘ └──────┬──────┘
│ │
└────────┬──────────┘
│
┌────────▼────────┐
│ Nginx 負載均衡 │
│ 192.168.88.10 │
└────────┬────────┘
│
┌────────▼────────┐
│ 應用服務器 │
└─────────────────┘
API 端點:
- MS01:
http://192.168.88.21:8000/v1 - MS02:
http://192.168.88.22:8000/v1 - 負載均衡:
http://192.168.88.10:8000/v1
四、性能對比:256k vs 64k 上下文窗口
在遷移過程中,我們做了一個關鍵優化:將上下文窗口從 256k 降至 64k。
4.1 為什麼降低上下文?
- 推理速度:64k 窗口的注意力計算量是 256k 的 1/4,生成速度提升 3-4 倍
- 內存佔用:KV Cache 佔用從 48GB 降至 12GB,可容納更高並發
- 實際需求:95% 的對話場景不需要超過 64k 上下文
4.2 實測數據
| 指標 | 256k 窗口 | 64k 窗口 | 提升 |
|---|---|---|---|
| 首 token 延遲 | 380ms | 95ms | 4× |
| 生成速度 | 18 tokens/s | 65 tokens/s | 3.6× |
| 並發請求數 | 4 | 16 | 4× |
| 內存佔用 | 78GB | 42GB | 1.9× |
結論:對於大多數應用場景,64k 是性能和成本的甜蜜點。
五、成本分析:付費 API vs 本地硬件
5.1 三年總擁有成本(TCO)
| 項目 | API 方案 | 本地方案 | 差額 |
|---|---|---|---|
| 硬件投入 | $0 | $8000 | -$8000 |
| API 費用(3 年) | $21600 | $0 | +$21600 |
| 電費(3 年) | $0 | $1800 | -$1800 |
| 維護成本 | $0 | $1000 | -$1000 |
| 總計 | $21600 | $10800 | +$10800 |
本地方案 3 年節省:$10800
5.2 隱性成本
API 方案的隱性成本常被忽視:
- 停機風險:API 服務宕機,業務立即中斷
- 速率限制:高峰期可能被限流
- 模型變更:提供商可隨時下架或修改模型
- 合規風險:數據出境可能違反 GDPR/網絡安全法
本地方案的一次性投入,換來的是可控性和確定性。
六、未來趨勢:本地 AI 是必然選擇
我們判斷,2026-2027 年將是本地推理的爆發年:
6.1 硬件趨勢
- Apple Silicon 持續升級,M4 Ultra 預計支持 128GB 統一內存
- NVIDIA RTX 5090 顯存提升至 32GB,多卡方案更親民
- 國產 AI 芯片(華為昇騰、寒武紀)性價比優勢明顯
6.2 模型趨勢
- 量化技術成熟:8bit/5bit 量化幾乎無損,4bit 也可用
- 小模型崛起:7B-27B 參數模型在特定任務上媲美 70B+
- 開源生態:Llama、Qwen、Mistral 持續迭代,閉源差距縮小
6.3 軟件趨勢
- oMLX、llama.cpp、vLLM 等框架持續優化
- 一鍵部署工具鏈成熟,運維門檻降低
- 雲邊端協同:本地推理 + 雲端備份的混合架構
我們的建議:如果你的團隊日均 API 調用超過 5 萬次,或處理敏感數據,現在就是遷移的最佳時機。
七、SFD 編者註
這次遷移對 SFD 實驗室是一次重要考驗。我們在 48 小時內完成:
- 硬件採購和配置(2 台 M3 Ultra)
- oMLX 框架部署和調優
- API 端點兼容測試
- 全流量切換和驗收
經驗教訓:
- 提前預案:不要等到 API 漲價才行動,平時就要評估本地方案
- 量化選型:8bit 是質量和速度的平衡點,5bit 適合代碼等容錯場景
- 監控先行:部署後立即接入 Prometheus + Grafana,監控溫度、內存、QPS
本地推理不是退步,而是技術成熟的標誌。當工具足夠簡單、成本足夠低時,把數據留在自己手裡是唯一理性的選擇。