Google TurboQuant：LLM 推理内存砍掉 6 倍，谁的护城河又塌了？

4 月 3 日，Google Research 悄悄发了一篇论文。标题：「TurboQuant: 6 倍内存压缩，LLM 推理成本要变天」。

TurboQuant 是啥？

用新的量化算法，把大模型推理时的内存占用压缩 6 倍以上，几乎不损失精度。

1. 70B 模型可以跑在消费级显卡上（RTX 4090 就能跑）

2. 云厂商的「模型即服务」生意难做了

3. 端侧 AI 真的要来了

论文≠产品，至少 12-18 个月才能产品化。开源社区可能比 Google 自己更快。

SFD 编者注：2026 年 4 月 8 日，AI 基础设施变化太快。我们的策略：紧跟开源，快速复现，能本地就不云端。