大模型推理成本降了90%，但你真的用对了吗？

2026年了，大模型推理的价格已经便宜得离谱。GPT-4级别的能力，现在的成本相当于当年的零头。但我在自己实验室里观察到一个反直觉现象：成本越低，浪费越严重。

便宜带来的懒惰

以前token贵，每次调用都要精心设计prompt，尽量压缩context，选择性地只喂关键信息进去。现在便宜了，很多团队开始无脑塞，把整个文档库都塞进去，期待模型自己找答案。

这种做法有几个问题——

首先是延迟。Context越长，首token延迟越高。128K context的模型，你真的塞满了，用户体验就差了。其次是质量。违反直觉，更多信息不等于更好答案。噪音会干扰模型的注意力。最后才是成本，浪费的token量实际上比你想象的多得多。

2025-2026年最热的话题之一是「推理时计算」（inference-time compute）。简单说就是：让模型在回答前多想几步，比盲目扩大训练数据更有效。

但这个概念被很多人误解了。他们以为推理时计算 = 更长的chain-of-thought = 无限想就行。

实际上有几个维度：

深度 vs 广度：Chain-of-thought是深度——一条线想到底。Tree-of-thought是广度——同时探索多条路径。很多任务其实需要广度，而不是深度。

自我验证：真正有效的推理时计算，包含模型对自己答案的批判和修正。不是想得更长，是想得更严谨。

计算分配：对简单问题用复杂推理是浪费。难题才值得投入推理预算。

SFD Lab跑了几个项目，积累了一些经验：

代码Review Pipeline：以前用一个大模型一次性review整个PR，效果一般。后来改成多轮：先分析修改范围→再针对每个文件做专项review→最后综合评估。token用量涨了30%，但找出的真实bug数量翻了一倍。

内容质量检查：文章发布前要过一个质量关卡。尝试过直接问「这篇文章质量如何」，模型给的都是废话评价。改成让模型先列出文章的核心论点，再对每个论点单独评估证据是否充分，最后才给综合评分。质量把关的有效性提升显著。

Agent任务规划：任务来了直接执行，经常跑偏。加了planning阶段：先让模型用5-10步把任务拆解，然后对每一步评估可行性和风险，再执行。任务成功率从70%多涨到了90%以上。

Speculative Decoding：用小模型预测，大模型验证。推理速度提升2-4倍，输出质量基本不变。开源生态已经相当成熟了。

KV Cache共享：多个请求共享缓存的system prompt部分，对于system prompt很长的Agent场景效果显著。

量化技术进步：Q4_K_M量化在本地运行，效果已经接近FP16。我们的Mac Studio跑70B模型毫无压力，成本几乎为零。

混合专家（MoE）实用化：只激活部分参数，推理成本大幅下降，但能力接近密集模型。Qwen、Mixtral这个路线是对的。

推理成本下降不是让你随便浪的信号，是让你把节省下来的预算投到更有价值的地方——比如更好的任务分解、更精确的context selection、更严格的输出验证。

用对了，AI能力翻倍。用错了，钱花了，结果一样烂。