專屬插圖

OpenRouter 免費時代終結:我們為什麼全面轉向本地推理?
> **摘要**:OpenRouter 宣佈結束免費模型政策,所有 API 調用開始計費。SFD 實驗室在 48 小時內完成全面遷移,啟用雙 M3 Ultra 本地推理集群。本文詳細記錄遷移決策、技術選型、成本對比和部署方案,為面臨同樣困境的團隊提供實戰參考。
---
#一、突發:OpenRouter 免費政策落幕
2026 年 4 月初,OpenRouter 官方發佈公告:自 4 月 8 日起,所有模型調用結束免費試用,全面進入付費時代。
這一變化對依賴 OpenRouter 的開發者意味著什麼?
- **成本激增**:以 Qwen3.5-32B 為例,每百萬 token 輸入$0.15,輸出$0.60。日均 10 萬次調用的團隊,月成本輕鬆突破$5000
- **延遲不可控**:跨境 API 調用,平均延遲 200-800ms,高峰期甚至超過 2 秒
- **隱私風險**:所有推理數據必須經過第三方服務器,敏感信息無法完全隔離
我們在 4 月 6 日收到通知後,立即啟動應急預案。48 小時內,完成從 API 依賴到本地推理的完整遷移。
---
#二、為什麼選擇本地推理?
##2.1 私隱:數據不出內網
本地推理的最大優勢是**數據完全可控**。
- 所有推理請求在局域網內完成
- 無需擔心 API 日誌被記錄或濫用
- 符合企業級數據安全合規要求
對於處理用戶數據、商業機密或敏感信息的團隊,這是唯一選擇。
##2.2 成本:一次投入,永久免費
讓我們算一筆賬:
**API 方案(按日均 10 萬 tokens 計算)**:
- Qwen3.5-32B:$0.15/1M input + $0.60/1M output
- 日均成本:約$15-25
- 月成本:$450-750
- 年成本:$5400-9000
**本地方案(M3 Ultra 96GB)**:
- 硬件成本:約$4000/台(兩台$8000)
- 電費:約$50/月
- 年成本:約$8600(含硬件折舊)
**回本周期**:約 12-18 個月。之後每年節省$5000+。
##2.3 延遲:毫秒級響應
本地推理的延遲表現:
- **首 token 時間**:50-150ms(vs API 200-800ms)
- **總生成時間**:取決於輸出長度,但無網絡開銷
- **並發能力**:單卡可同時處理 10-20 個請求
對於實時交互場景(如客服對話、代碼補全),這是決定性優勢。
---
#三、SFD 實驗室部署方案:MS01 + MS02 雙機集群
##3.1 硬件配置
| 節點 | 型號 | 內存 | 用途 |
|------|------|------|------|
| MS01 | Mac Studio M3 Ultra | 96GB | Qwen3.5-27B-8bit 通用推理 |
| MS02 | Mac Studio M3 Ultra | 96GB | Qwen3-Coder-Next-5bit 代碼專用 |
選擇 M3 Ultra 的理由:
- **統一內存架構**:96GB 顯存可直接加載 27B 參數模型(8bit 量化)
- **能效比優秀**:滿載功耗約 300W,遠低於同性能 GPU 方案
- **oMLX 框架支持**:Apple Silicon 原生優化,推理速度提升 40%
##3.2 軟件棧
- **推理框架**:oMLX(Apple MLX 的優化分支)
- **模型格式**:GGUF 8bit/5bit 量化
- **API 兼容**:OpenAI 兼容端點,零代碼遷移
- **服務發現**:局域網 DNS + 負載均衡
##3.3 網絡拓撲
```
┌─────────────┐ ┌─────────────┐
│ MS01 │ │ MS02 │
│ 192.168.88.21│ │ 192.168.88.22│
│ :8000/v1 │ │ :8000/v1 │
└──────┬──────┘ └──────┬──────┘
│ │
└────────┬──────────┘
│
┌────────▼────────┐
│ Nginx 負載均衡 │
│ 192.168.88.10 │
└────────┬────────┘
│
┌────────▼────────┐
│ 應用服務器 │
└─────────────────┘
```
API 端點:
- MS01: `http://192.168.88.21:8000/v1`
- MS02: `http://192.168.88.22:8000/v1`
- 負載均衡:`http://192.168.88.10:8000/v1`
---
#四、性能對比:256k vs 64k 上下文窗口
在遷移過程中,我們做了一個關鍵優化:**將上下文窗口從 256k 降至 64k**。
##4.1 為什麼降低上下文?
- **推理速度**:64k 窗口的注意力計算量是 256k 的 1/4,生成速度提升 3-4 倍
- **內存佔用**:KV Cache 佔用從 48GB 降至 12GB,可容納更高並發
- **實際需求**:95% 的對話場景不需要超過 64k 上下文
##4.2 實測數據
| 指標 | 256k 窗口 | 64k 窗口 | 提升 |
|------|----------|---------|------|
| 首 token 延遲 | 380ms | 95ms | 4× |
| 生成速度 | 18 tokens/s | 65 tokens/s | 3.6× |
| 並發請求數 | 4 | 16 | 4× |
| 內存佔用 | 78GB | 42GB | 1.9× |
**結論**:對於大多數應用場景,64k 是性能和成本的甜蜜點。
---
#五、成本分析:付費 API vs 本地硬件
##5.1 三年總擁有成本(TCO)
| 項目 | API 方案 | 本地方案 | 差額 |
|------|---------|---------|------|
| 硬件投入 | $0 | $8000 | -$8000 |
| API 費用(3 年) | $21600 | $0 | +$21600 |
| 電費(3 年) | $0 | $1800 | -$1800 |
| 維護成本 | $0 | $1000 | -$1000 |
| **總計** | **$21600** | **$10800** | **+$10800** |
**本地方案 3 年節省:$10800**
##5.2 隱性成本
API 方案的隱性成本常被忽視:
- **停機風險**:API 服務宕機,業務立即中斷
- **速率限制**:高峰期可能被限流
- **模型變更**:提供商可隨時下架或修改模型
- **合規風險**:數據出境可能違反 GDPR/網絡安全法
本地方案的一次性投入,換來的是**可控性和確定性**。
---
#六、未來趨勢:本地 AI 是必然選擇
我們判斷,2026-2027 年將是本地推理的爆發年:
##6.1 硬件趨勢
- Apple Silicon 持續升級,M4 Ultra 預計支持 128GB 統一內存
- NVIDIA RTX 5090 顯存提升至 32GB,多卡方案更親民
- 國產 AI 芯片(華為昇騰、寒武紀)性價比優勢明顯
##6.2 模型趨勢
- 量化技術成熟:8bit/5bit 量化幾乎無損,4bit 也可用
- 小模型崛起:7B-27B 參數模型在特定任務上媲美 70B+
- 開源生態:Llama、Qwen、Mistral 持續迭代,閉源差距縮小
##6.3 軟件趨勢
- oMLX、llama.cpp、vLLM 等框架持續優化
- 一鍵部署工具鏈成熟,運維門檻降低
- 雲邊端協同:本地推理 + 雲端備份的混合架構
**我們的建議**:如果你的團隊日均 API 調用超過 5 萬次,或處理敏感數據,現在就是遷移的最佳時機。
---
#七、SFD 編者註
這次遷移對 SFD 實驗室是一次重要考驗。我們在 48 小時內完成:
- 硬件採購和配置(2 台 M3 Ultra)
- oMLX 框架部署和調優
- API 端點兼容測試
- 全流量切換和驗收
**經驗教訓**:
1. **提前預案**:不要等到 API 漲價才行動,平時就要評估本地方案
2. **量化選型**:8bit 是質量和速度的平衡點,5bit 適合代碼等容錯場景
3. **監控先行**:部署後立即接入 Prometheus + Grafana,監控溫度、內存、QPS
本地推理不是退步,而是**技術成熟的標誌**。當工具足夠簡單、成本足夠低時,把數據留在自己手裡是唯一理性的選擇。
---
**參考資料**:
- [OpenRouter 定價公告](https://openrouter.ai/pricing)
- [oMLX 框架文檔](https://github.com/ml-explore/mlx)
- [Qwen3.5 模型卡片](https://huggingface.co/Qwen/Qwen3.5-32B)
- [GGUF 量化格式說明](https://github.com/ggerganov/ggml/blob/master/docs/gguf.md)
---
*本文分類:article | 作者:小狐狸 🦊 | 發佈時間:2026-04-08*