← 返回文章列表

發佈於

OpenRouter 免費時代終結：我們為什麼全面轉向本地推理？

OpenRouter 結束免費政策，SFD 實驗室 48 小時內遷移至雙 M3 Ultra 本地推理集群。詳解技術選型、成本對比、性能實測和部署方案。

標籤:OpenRouter本地推理M3 UltraoMLX

專屬插圖

OpenRouter 免費時代終結：我們為什麼全面轉向本地推理？

OpenRouter 免費時代終結：我們為什麼全面轉向本地推理？ > 摘要：OpenRouter 宣佈結束免費模型政策，所有 API 調用開始計費。SFD 實驗室在 48 小時內完成全面遷移，啟用雙 M3 Ultra 本地推理集群。本文詳細記錄遷移決策、技術選型、成本對比和部署方案，為面臨同樣困境的團隊提供實戰參考。 --- #

一、突發：OpenRouter 免費政策落幕 2026 年 4 月初，OpenRouter 官方發佈公告：自 4 月 8 日起，所有模型調用結束免費試用，全面進入付費時代。這一變化對依賴 OpenRouter 的開發者意味著什麼？ - 成本激增：以 Qwen3.5-32B 為例，每百萬 token 輸入$0.15，輸出$0.60。日均 10 萬次調用的團隊，月成本輕鬆突破$5000 - 延遲不可控：跨境 API 調用，平均延遲 200-800ms，高峰期甚至超過 2 秒 - 隱私風險：所有推理數據必須經過第三方服務器，敏感信息無法完全隔離我們在 4 月 6 日收到通知後，立即啟動應急預案。48 小時內，完成從 API 依賴到本地推理的完整遷移。 --- #

二、為什麼選擇本地推理？ ##

2.1 私隱：數據不出內網本地推理的最大優勢是數據完全可控。 - 所有推理請求在局域網內完成 - 無需擔心 API 日誌被記錄或濫用 - 符合企業級數據安全合規要求對於處理用戶數據、商業機密或敏感信息的團隊，這是唯一選擇。 ##

2.2 成本：一次投入，永久免費讓我們算一筆賬： API 方案（按日均 10 萬 tokens 計算）： - Qwen3.5-32B：$0.15/1M input + $0.60/1M output - 日均成本：約$15-25 - 月成本：$450-750 - 年成本：$5400-9000 本地方案（M3 Ultra 96GB）： - 硬件成本：約$4000/台（兩台$8000） - 電費：約$50/月 - 年成本：約$8600（含硬件折舊）回本周期：約 12-18 個月。之後每年節省$5000+。 ##

2.3 延遲：毫秒級響應本地推理的延遲表現： - 首 token 時間：50-150ms（vs API 200-800ms） - 總生成時間：取決於輸出長度，但無網絡開銷 - 並發能力：單卡可同時處理 10-20 個請求對於實時交互場景（如客服對話、代碼補全），這是決定性優勢。 --- #

三、SFD 實驗室部署方案：MS01 + MS02 雙機集群 ##

3.1 硬件配置 | 節點 | 型號 | 內存 | 用途 | |------|------|------|------| | MS01 | Mac Studio M3 Ultra | 96GB | Qwen3.5-27B-8bit 通用推理 | | MS02 | Mac Studio M3 Ultra | 96GB | Qwen3-Coder-Next-5bit 代碼專用 | 選擇 M3 Ultra 的理由： - 統一內存架構：96GB 顯存可直接加載 27B 參數模型（8bit 量化） - 能效比優秀：滿載功耗約 300W，遠低於同性能 GPU 方案 - oMLX 框架支持：Apple Silicon 原生優化，推理速度提升 40% ##

3.2 軟件棧 - 推理框架：oMLX（Apple MLX 的優化分支） - 模型格式：GGUF 8bit/5bit 量化 - API 兼容：OpenAI 兼容端點，零代碼遷移 - 服務發現：局域網 DNS + 負載均衡 ##

3.3 網絡拓撲 ``` ┌─────────────┐ ┌─────────────┐ │ MS01 │ │ MS02 │ │ 192.168.88.21│ │ 192.168.88.22│ │ :8000/v1 │ │ :8000/v1 │ └──────┬──────┘ └──────┬──────┘ │ │ └────────┬──────────┘ │ ┌────────▼────────┐ │ Nginx 負載均衡 │ │ 192.168.88.10 │ └────────┬────────┘ │ ┌────────▼────────┐ │ 應用服務器 │ └─────────────────┘ ``` API 端點： - MS01: `http://192.168.88.21:8000/v1` - MS02: `http://192.168.88.22:8000/v1` - 負載均衡：`http://192.168.88.10:8000/v1` --- #

四、性能對比：256k vs 64k 上下文窗口在遷移過程中，我們做了一個關鍵優化：將上下文窗口從 256k 降至 64k。 ##

4.1 為什麼降低上下文？ - 推理速度：64k 窗口的注意力計算量是 256k 的 1/4，生成速度提升 3-4 倍 - 內存佔用：KV Cache 佔用從 48GB 降至 12GB，可容納更高並發 - 實際需求：95% 的對話場景不需要超過 64k 上下文 ##

4.2 實測數據 | 指標 | 256k 窗口 | 64k 窗口 | 提升 | |------|----------|---------|------| | 首 token 延遲 | 380ms | 95ms | 4× | | 生成速度 | 18 tokens/s | 65 tokens/s | 3.6× | | 並發請求數 | 4 | 16 | 4× | | 內存佔用 | 78GB | 42GB | 1.9× | 結論：對於大多數應用場景，64k 是性能和成本的甜蜜點。 --- #

五、成本分析：付費 API vs 本地硬件 ##

5.1 三年總擁有成本（TCO） | 項目 | API 方案 | 本地方案 | 差額 | |------|---------|---------|------| | 硬件投入 | $0 | $8000 | -$8000 | | API 費用（3 年） | $21600 | $0 | +$21600 | | 電費（3 年） | $0 | $1800 | -$1800 | | 維護成本 | $0 | $1000 | -$1000 | | 總計 | $21600 | $10800 | +$10800 | 本地方案 3 年節省：$10800 ##

5.2 隱性成本 API 方案的隱性成本常被忽視： - 停機風險：API 服務宕機，業務立即中斷 - 速率限制：高峰期可能被限流 - 模型變更：提供商可隨時下架或修改模型 - 合規風險：數據出境可能違反 GDPR/網絡安全法本地方案的一次性投入，換來的是可控性和確定性。 --- #

六、未來趨勢：本地 AI 是必然選擇我們判斷，2026-2027 年將是本地推理的爆發年： ##

6.1 硬件趨勢 - Apple Silicon 持續升級，M4 Ultra 預計支持 128GB 統一內存 - NVIDIA RTX 5090 顯存提升至 32GB，多卡方案更親民 - 國產 AI 芯片（華為昇騰、寒武紀）性價比優勢明顯 ##

6.2 模型趨勢 - 量化技術成熟：8bit/5bit 量化幾乎無損，4bit 也可用 - 小模型崛起：7B-27B 參數模型在特定任務上媲美 70B+ - 開源生態：Llama、Qwen、Mistral 持續迭代，閉源差距縮小 ##

6.3 軟件趨勢 - oMLX、llama.cpp、vLLM 等框架持續優化 - 一鍵部署工具鏈成熟，運維門檻降低 - 雲邊端協同：本地推理 + 雲端備份的混合架構我們的建議：如果你的團隊日均 API 調用超過 5 萬次，或處理敏感數據，現在就是遷移的最佳時機。 --- #

七、SFD 編者註這次遷移對 SFD 實驗室是一次重要考驗。我們在 48 小時內完成： - 硬件採購和配置（2 台 M3 Ultra） - oMLX 框架部署和調優 - API 端點兼容測試 - 全流量切換和驗收經驗教訓： 1. 提前預案：不要等到 API 漲價才行動，平時就要評估本地方案 2. 量化選型：8bit 是質量和速度的平衡點，5bit 適合代碼等容錯場景 3. 監控先行：部署後立即接入 Prometheus + Grafana，監控溫度、內存、QPS 本地推理不是退步，而是技術成熟的標誌。當工具足夠簡單、成本足夠低時，把數據留在自己手裡是唯一理性的選擇。 --- 參考資料： - [OpenRouter 定價公告](https://openrouter.ai/pricing) - [oMLX 框架文檔](https://github.com/ml-explore/mlx) - [Qwen3.5 模型卡片](https://huggingface.co/Qwen/Qwen3.5-32B) - [GGUF 量化格式說明](https://github.com/ggerganov/ggml/blob/master/docs/gguf.md) --- 本文分類：article | 作者：小狐狸 🦊 | 發佈時間：2026-04-08