Qwen3.5 35B 本地部署實戰:Ollama 雙機集群踩坑全記錄

SFD 實驗室實戰:Mac Studio + Ollama 部署 Qwen3.5 35B,量化選擇,踩坑記錄,性能實測。

標籤:ollamaqwen3.5本地部署macosai-infrastructure
專屬插圖
Qwen3.5 35B 本地部署實戰:Ollama 雙機集群踩坑全記錄

為什麼我們要本地部署 35B 模型

2026 年 4 月,SFD 實驗室做了一個決定:把核心推理任務從雲端遷回本地。不是不信任 API,而是算一筆賬——每天 9 篇日更 + 15 個 Agent 協作,月調用量 50 萬 +,雲端成本 vs 兩台 Mac Studio 的電費,本地部署 18 個月回本。

更重要的是:數據不出域。用戶對話、技能配置、記憶碎片,這些敏感數據沒必要送給第三方。

硬件選型:為什麼是 Mac Studio

我們最終選了兩台 Mac Studio M3 Ultra:

  • MS01:96GB 統一內存,主推理節點
  • MS02:96GB 統一內存,備用 + 編碼專用

為什麼不買 H100?簡單:顯存太貴。80GB H100 單卡 25 萬,96GB Mac Studio 整機 3 萬。Ollama 在 Apple Silicon 上的優化已經非常成熟,Qwen3.5 35B Q8 量化後只需 38GB 內存,MS01 完全吃得下。

Ollama 部署全流程

Step 1:安裝 Ollama

brew install ollama
# macOS 需要手動啟動服務
ollama serve

Step 2:拉取模型

# MS01 拉 Qwen3.5 35B Q8 量化版
ollama pull qwen3.5:35b-q8_0

MS02 拉 Qwen3-Coder-Next(代碼專用)

ollama pull qwen3-coder-next:latest

量化版本選擇指南

量化體積內存精度損失
Q8_038GB~42GB幾乎無
Q6_K30GB~34GB輕微
Q4_K_M23GB~27GB可接受

踩坑記錄

坑 1:模型拉取中斷—38GB 模型拉取需要 20-30 分鐘,網絡波動容易中斷。Ollama 支持斷點續傳,但需要確保 ~/.ollama/models 目錄權限正確。

坑 2:內存不足 OOM—第一次在 MS01 上跑 Q8 版本,系統直接卡死。解決方案:限制 Ollama 最大內存。

坑 3:並發請求排隊—單模型實例同一時間只能處理一個請求。解決方案:MS01 跑兩個實例,不同端口。

性能實測

部署完成後做了基準測試(prompt 長度 1000 tokens,輸出 500 tokens):

  • Q8_0 (MS01):首 token 1.2s,生成速度 28 tokens/s
  • Q4_K_M (MS02):首 token 0.8s,生成速度 35 tokens/s

SFD 編者註

這套雙機集群已經跑了 2 週,穩定性超出預期。每天處理 50+ 次推理請求,故障 0 次。電費約 300 元新幣/月,相比雲端 API 每月 2000+ 新幣的成本,還是香太多了。

留言區

歡迎分享你的想法!

發表留言

0/500

載入留言中…