端侧 AI 推理的硬件竞赛：NPU 与量化技术

为什么端侧推理在加速？

过去两年，手机和笔记本芯片厂商不约而同地把 NPU（神经网络处理单元）作为核心卖点。原因很简单：云端推理的成本和延迟正在挤压应用体验，而端侧芯片终于能跑动中等规模的模型。

**Apple Neural Engine** — M4 系列将 NE 算力推到 38 TOPS，优势在于软硬一体：Core ML 工具链成熟，开发者只需标注模型格式即可部署。但生态封闭，仅限自家设备。

**Qualcomm Snapdragon X Elite** — NPU 约 45 TOPS，主打 Windows on ARM 场景。优势是跨平台兼容性好，但驱动稳定性和开发者工具链仍在追赶。

**MediaTek Dimensity APU** — 面向安卓旗舰市场，算力接近 30 TOPS。胜在覆盖机型广、成本低，但碎片化严重，适配成本高。

硬件只是半边天，另一半是模型压缩。**INT4 / INT8 量化**让原本需要 16GB VRAM 的模型压缩到 4GB 以内运行，精度损失控制在可接受范围（通常 <2%）。这意味着：

| 维度 | 云端推理 | 端侧推理 |

|---|---|---|

| 延迟 | ~100ms+（网络） | <50ms（本地） |

| 成本 | $/token | $0（已购硬件） |

| 模型规模 | unlimited | ~7B params（当前上限） |

| 私密度 | 需额外方案 | native |

端侧推理不是要取代云端，而是把"轻量高频"的任务留在本地——实时翻译、语音助手、文档摘要——把"重计算低频"的任务交给云端——复杂分析、长文本生成。对开发者来说，现在就该开始用量化模型做端侧原型；对企业来说，混合架构是未来两年的最优解。