Claude Sonnet 4深度评测：不只是更快，而是真的更懂你了

背景：我们为什么重新评测

SFD实验室有14个智能体全天运转，底层大量使用Claude。之前用的是Sonnet 3.7，切到Sonnet 4之后，有些行为变了，有些没变，有些没按预期变——值得认真梳理一遍。

这篇不是官方Benchmark对比，而是基于我们实际工作场景的观察。如果你想看MMLU/HumanEval数字，Anthropic官网有。这里说的是"真实用起来差在哪"。

第一个明显变化：指令遵循更稳了

这是我们感受最深的一点。Sonnet 3.7有一个让人烦的习惯：给了很具体的格式要求，但它偶尔会"忘掉"或者"自作主张"改一下。比如让它输出纯JSON，它有时候会在前面加一句"以下是JSON格式的回答："。

Sonnet 4在这方面明显收紧了。我们在小狐狸的内容发布流程里，要求严格按模板输出文章JSON，切到Sonnet 4后，这类格式偏差从大概15%降到了3%以内。对于自动化流程来说，这个差异很关键，意味着更少的异常处理代码。

第二个变化：长文档理解更连贯

我们用Claude做合同审查，文档通常30-50页。Sonnet 3.7在处理长文档时，有个隐性问题：前半段分析得很细，到后半段开始"精简"，最后几页基本是略读级别的。

Sonnet 4对这个问题有改善。我们测了几份50页以上的文档，注意力分布更均匀了。第45页的一个小条款，它也能准确找到并引用，而不是"根据前面的内容推测"。

不过有个边界情况：如果文档本身结构混乱（比如扫描件转文字导致排版乱码），Sonnet 4的表现并没有比3.7好多少。准确理解的前提还是干净的输入。

第三个变化：工具调用更可靠

这对我们影响最大。SFD实验室的工作流高度依赖工具调用——智能体需要精确调用API、读写文件、触发下一步流程。Sonnet 3.7偶尔会出现"工具调用参数格式不对"或者"明明有工具可用却选择不用"的情况。

Sonnet 4在工具调用上更稳定。在我们的测试里，工具调用成功率从约92%提升到了97%。这5%的差距，在每天几百次工具调用的场景下，就是几十次错误减少，直接影响人工干预频率。

有一个具体例子：小章鱼调用API接口时，参数里有嵌套JSON的情况，Sonnet 3.7有时候会搞错引号转义，Sonnet 4几乎不再出现这个问题。

没有变好的地方

说实话，也有一些预期没兑现。

速度感知：官方说更快了，但在我们的使用场景里（输出1000字以上的长文章），主观感受差异不大。可能对短消息响应更明显，长文本生成的瓶颈不在模型本身。

数学和逻辑推理：我们的场景里没有重度数学需求，但偶尔让它做一些财务计算，Sonnet 4和3.7的准确率感觉差不多。如果你需要复杂推理，还是考虑Claude Opus级别的模型。

创意发散：这个反而觉得Sonnet 4稍微"保守"了一点。让它生成一些有创意的营销文案，Sonnet 3.7的发散性更强，Sonnet 4倾向于给"安全但无聊"的版本。可能是trade-off——更精确的代价是略少的随机性。

在Agent场景里的表现

Sonnet 4在多轮对话、角色扮演、长任务维持方面，都有提升。

我们的智能体有一个常见问题：执行到长任务的中途，"忘了"最初的目标，开始朝某个子任务偏移。Sonnet 4对这个问题有明显改善——它更能"记住"任务的主线，即使在执行很多步骤之后。

另一个观察：Sonnet 4在遇到模糊指令时，更倾向于主动澄清，而不是自己猜着做。这对自动化流程来说是双刃剑——它减少了"猜错了做了半天"的情况，但也增加了"需要更多轮次确认"的成本。

切换成本

如果你现在用Sonnet 3.7，切到Sonnet 4的成本很低。API兼容，不需要改代码。但建议做一轮回归测试，特别关注：格式化输出有没有变化、之前调过的prompt有没有行为改变、工具调用的错误率变化。

我们切换时，有两个老prompt需要微调——一个是因为Sonnet 4更"听话"了，原来专门规避它乱加说明文字的防御性提示词可以删掉了；另一个是需要给它更明确的"不需要澄清，直接执行"的指令，不然它会多问一轮。

SFD编者注

总结下来：Sonnet 4是一次"夯实基础"的升级，不是革命性突破。它在可靠性、指令遵循、工具调用这些"基建"层面做得更好，这对生产环境的智能体来说很重要。我们SFD实验室的14个智能体已经全切到Sonnet 4，用了两周，整体满意。主要好处不是某个功能突然特别厉害，而是"出幺蛾子"的频率降低了——这在Agent运维里，价值比任何新功能都大。