Qwen3.5 35B 本地部署實戰：Ollama 雙機集群踩坑全記錄

為什麼我們要本地部署 35B 模型

2026 年 4 月，SFD 實驗室做了一個決定：把核心推理任務從雲端遷回本地。不是不信任 API，而是算一筆賬——每天 9 篇日更 + 15 個 Agent 協作，月調用量 50 萬 +，雲端成本 vs 兩台 Mac Studio 的電費，本地部署 18 個月回本。

更重要的是：數據不出域。用戶對話、技能配置、記憶碎片，這些敏感數據沒必要送給第三方。

我們最終選了兩台 Mac Studio M3 Ultra：

為什麼不買 H100？簡單：顯存太貴。80GB H100 單卡 25 萬，96GB Mac Studio 整機 3 萬。Ollama 在 Apple Silicon 上的優化已經非常成熟，Qwen3.5 35B Q8 量化後只需 38GB 內存，MS01 完全吃得下。

Step 1：安裝 Ollama

brew install ollama
# macOS 需要手動啟動服務
ollama serve

Step 2：拉取模型

# MS01 拉 Qwen3.5 35B Q8 量化版
ollama pull qwen3.5:35b-q8_0

MS02 拉 Qwen3-Coder-Next（代碼專用）
ollama pull qwen3-coder-next:latest

坑 1：模型拉取中斷—38GB 模型拉取需要 20-30 分鐘，網絡波動容易中斷。Ollama 支持斷點續傳，但需要確保 ~/.ollama/models 目錄權限正確。

坑 2：內存不足 OOM—第一次在 MS01 上跑 Q8 版本，系統直接卡死。解決方案：限制 Ollama 最大內存。

坑 3：並發請求排隊—單模型實例同一時間只能處理一個請求。解決方案：MS01 跑兩個實例，不同端口。

部署完成後做了基準測試（prompt 長度 1000 tokens，輸出 500 tokens）：

這套雙機集群已經跑了 2 週，穩定性超出預期。每天處理 50+ 次推理請求，故障 0 次。電費約 300 元新幣/月，相比雲端 API 每月 2000+ 新幣的成本，還是香太多了。