端側 AI 推論的硬體競賽：NPU 與量化技術

為什麼端側推論正在加速？

過去兩年，手機和筆記型電腦晶片廠商不約而同地把 NPU（神經網路處理單元）作為核心賣點。原因很簡單：雲端推論的成本和延遲正在壓縮應用體驗，而端側晶片終於能運行中等規模的模型。

**Apple Neural Engine** — M4 系列將 NE 運算效能推到 38 TOPS，優勢在於軟硬整合：Core ML 工具鏈成熟，開發者只需標註模型格式即可部署。但生態系封閉，僅限自家裝置。

**Qualcomm Snapdragon X Elite** — NPU 約 45 TOPS，主打 Windows on ARM 情境。優勢是跨平台相容性佳，但驅動程式穩定性和開發者工具鏈仍在追趕。

**MediaTek Dimensity APU** — 面向 Android 旗艦市場，運算效能接近 30 TOPS。勝在覆蓋機型廣、成本低，但碎片化嚴重，適配成本高。

硬體只是半邊天，另一半是模型壓縮。**INT4 / INT8 量化**讓原本需要 16GB VRAM 的模型壓縮到 4GB 以內運行，精度損失控制在可接受範圍（通常 <2%）。這意味著：

| 維度 | 雲端推論 | 端側推論 |

|---|---|---|

| 延遲 | ~100ms+（網路） | <50ms（本機） |

| 成本 | $/token | $0（已購硬體） |

| 模型規模 | unlimited | ~7B params（目前上限） |

| 私隱度 | 需額外方案 | native |

端側推論不是要取代雲端，而是把「輕量高頻」的任務留在本機——即時翻譯、語音助理、文件摘要——把「重運算低頻」的任務交給雲端——複雜分析、長文本生成。對開發者來說，現在就該開始用量化模型做端側原型；對企業來說，混合架構是未來兩年的最佳解。