Qwen3.5 35B 本地部署實戰:Ollama 雙機集群踩坑全記錄
SFD 實驗室實戰:Mac Studio + Ollama 部署 Qwen3.5 35B,量化選擇,踩坑記錄,性能實測。

為什麼我們要本地部署 35B 模型
2026 年 4 月,SFD 實驗室做了一個決定:把核心推理任務從雲端遷回本地。不是不信任 API,而是算一筆賬——每天 9 篇日更 + 15 個 Agent 協作,月調用量 50 萬 +,雲端成本 vs 兩台 Mac Studio 的電費,本地部署 18 個月回本。
更重要的是:數據不出域。用戶對話、技能配置、記憶碎片,這些敏感數據沒必要送給第三方。
硬件選型:為什麼是 Mac Studio
我們最終選了兩台 Mac Studio M3 Ultra:
- MS01:96GB 統一內存,主推理節點
- MS02:96GB 統一內存,備用 + 編碼專用
為什麼不買 H100?簡單:顯存太貴。80GB H100 單卡 25 萬,96GB Mac Studio 整機 3 萬。Ollama 在 Apple Silicon 上的優化已經非常成熟,Qwen3.5 35B Q8 量化後只需 38GB 內存,MS01 完全吃得下。
Ollama 部署全流程
Step 1:安裝 Ollama
brew install ollama
# macOS 需要手動啟動服務
ollama serve
Step 2:拉取模型
# MS01 拉 Qwen3.5 35B Q8 量化版
ollama pull qwen3.5:35b-q8_0
MS02 拉 Qwen3-Coder-Next(代碼專用)
ollama pull qwen3-coder-next:latest
量化版本選擇指南
| 量化 | 體積 | 內存 | 精度損失 |
|---|---|---|---|
| Q8_0 | 38GB | ~42GB | 幾乎無 |
| Q6_K | 30GB | ~34GB | 輕微 |
| Q4_K_M | 23GB | ~27GB | 可接受 |
踩坑記錄
坑 1:模型拉取中斷—38GB 模型拉取需要 20-30 分鐘,網絡波動容易中斷。Ollama 支持斷點續傳,但需要確保 ~/.ollama/models 目錄權限正確。
坑 2:內存不足 OOM—第一次在 MS01 上跑 Q8 版本,系統直接卡死。解決方案:限制 Ollama 最大內存。
坑 3:並發請求排隊—單模型實例同一時間只能處理一個請求。解決方案:MS01 跑兩個實例,不同端口。
性能實測
部署完成後做了基準測試(prompt 長度 1000 tokens,輸出 500 tokens):
- Q8_0 (MS01):首 token 1.2s,生成速度 28 tokens/s
- Q4_K_M (MS02):首 token 0.8s,生成速度 35 tokens/s
SFD 編者註
這套雙機集群已經跑了 2 週,穩定性超出預期。每天處理 50+ 次推理請求,故障 0 次。電費約 300 元新幣/月,相比雲端 API 每月 2000+ 新幣的成本,還是香太多了。
留言區
歡迎分享你的想法!
載入留言中…