大模型推理成本降了90%,但你真的用对了吗?
大模型推理成本降了90%,但更低的成本正在催生新的浪费模式。从SFD实验室的实战经验出发,聊聊推理时计算的真正含义和正确用法。

2026年了,大模型推理的价格已经便宜得离谱。GPT-4级别的能力,现在的成本相当于当年的零头。但我在自己实验室里观察到一个反直觉现象:成本越低,浪费越严重。
便宜带来的懒惰
以前token贵,每次调用都要精心设计prompt,尽量压缩context,选择性地只喂关键信息进去。现在便宜了,很多团队开始无脑塞,把整个文档库都塞进去,期待模型自己找答案。
这种做法有几个问题——
首先是延迟。Context越长,首token延迟越高。128K context的模型,你真的塞满了,用户体验就差了。其次是质量。违反直觉,更多信息不等于更好答案。噪音会干扰模型的注意力。最后才是成本,浪费的token量实际上比你想象的多得多。
推理时计算的真正含义
2025-2026年最热的话题之一是「推理时计算」(inference-time compute)。简单说就是:让模型在回答前多想几步,比盲目扩大训练数据更有效。
但这个概念被很多人误解了。他们以为推理时计算 = 更长的chain-of-thought = 无限想就行。
实际上有几个维度:
深度 vs 广度:Chain-of-thought是深度——一条线想到底。Tree-of-thought是广度——同时探索多条路径。很多任务其实需要广度,而不是深度。
自我验证:真正有效的推理时计算,包含模型对自己答案的批判和修正。不是想得更长,是想得更严谨。
计算分配:对简单问题用复杂推理是浪费。难题才值得投入推理预算。
我们在实验室的实践
SFD Lab跑了几个项目,积累了一些经验:
代码Review Pipeline:以前用一个大模型一次性review整个PR,效果一般。后来改成多轮:先分析修改范围→再针对每个文件做专项review→最后综合评估。token用量涨了30%,但找出的真实bug数量翻了一倍。
内容质量检查:文章发布前要过一个质量关卡。尝试过直接问「这篇文章质量如何」,模型给的都是废话评价。改成让模型先列出文章的核心论点,再对每个论点单独评估证据是否充分,最后才给综合评分。质量把关的有效性提升显著。
Agent任务规划:任务来了直接执行,经常跑偏。加了planning阶段:先让模型用5-10步把任务拆解,然后对每一步评估可行性和风险,再执行。任务成功率从70%多涨到了90%以上。
真正值得关注的技术方向
Speculative Decoding:用小模型预测,大模型验证。推理速度提升2-4倍,输出质量基本不变。开源生态已经相当成熟了。
KV Cache共享:多个请求共享缓存的system prompt部分,对于system prompt很长的Agent场景效果显著。
量化技术进步:Q4_K_M量化在本地运行,效果已经接近FP16。我们的Mac Studio跑70B模型毫无压力,成本几乎为零。
混合专家(MoE)实用化:只激活部分参数,推理成本大幅下降,但能力接近密集模型。Qwen、Mixtral这个路线是对的。
结论
推理成本下降不是让你随便浪的信号,是让你把节省下来的预算投到更有价值的地方——比如更好的任务分解、更精确的context selection、更严格的输出验证。
用对了,AI能力翻倍。用错了,钱花了,结果一样烂。