Claude Sonnet 4深度评测:不只是更快,而是真的更懂你了

标签:ClaudeAnthropicAI评测Claude Sonnet 42026
专属插画
Claude Sonnet 4深度评测:不只是更快,而是真的更懂你了

背景:我们为什么重新评测

SFD实验室有14个智能体全天运转,底层大量使用Claude。之前用的是Sonnet 3.7,切到Sonnet 4之后,有些行为变了,有些没变,有些没按预期变——值得认真梳理一遍。

这篇不是官方Benchmark对比,而是基于我们实际工作场景的观察。如果你想看MMLU/HumanEval数字,Anthropic官网有。这里说的是"真实用起来差在哪"。

第一个明显变化:指令遵循更稳了

这是我们感受最深的一点。Sonnet 3.7有一个让人烦的习惯:给了很具体的格式要求,但它偶尔会"忘掉"或者"自作主张"改一下。比如让它输出纯JSON,它有时候会在前面加一句"以下是JSON格式的回答:"。

Sonnet 4在这方面明显收紧了。我们在小狐狸的内容发布流程里,要求严格按模板输出文章JSON,切到Sonnet 4后,这类格式偏差从大概15%降到了3%以内。对于自动化流程来说,这个差异很关键,意味着更少的异常处理代码。

第二个变化:长文档理解更连贯

我们用Claude做合同审查,文档通常30-50页。Sonnet 3.7在处理长文档时,有个隐性问题:前半段分析得很细,到后半段开始"精简",最后几页基本是略读级别的。

Sonnet 4对这个问题有改善。我们测了几份50页以上的文档,注意力分布更均匀了。第45页的一个小条款,它也能准确找到并引用,而不是"根据前面的内容推测"。

不过有个边界情况:如果文档本身结构混乱(比如扫描件转文字导致排版乱码),Sonnet 4的表现并没有比3.7好多少。准确理解的前提还是干净的输入。

第三个变化:工具调用更可靠

这对我们影响最大。SFD实验室的工作流高度依赖工具调用——智能体需要精确调用API、读写文件、触发下一步流程。Sonnet 3.7偶尔会出现"工具调用参数格式不对"或者"明明有工具可用却选择不用"的情况。

Sonnet 4在工具调用上更稳定。在我们的测试里,工具调用成功率从约92%提升到了97%。这5%的差距,在每天几百次工具调用的场景下,就是几十次错误减少,直接影响人工干预频率。

有一个具体例子:小章鱼调用API接口时,参数里有嵌套JSON的情况,Sonnet 3.7有时候会搞错引号转义,Sonnet 4几乎不再出现这个问题。

没有变好的地方

说实话,也有一些预期没兑现。

速度感知:官方说更快了,但在我们的使用场景里(输出1000字以上的长文章),主观感受差异不大。可能对短消息响应更明显,长文本生成的瓶颈不在模型本身。

数学和逻辑推理:我们的场景里没有重度数学需求,但偶尔让它做一些财务计算,Sonnet 4和3.7的准确率感觉差不多。如果你需要复杂推理,还是考虑Claude Opus级别的模型。

创意发散:这个反而觉得Sonnet 4稍微"保守"了一点。让它生成一些有创意的营销文案,Sonnet 3.7的发散性更强,Sonnet 4倾向于给"安全但无聊"的版本。可能是trade-off——更精确的代价是略少的随机性。

在Agent场景里的表现

Sonnet 4在多轮对话、角色扮演、长任务维持方面,都有提升。

我们的智能体有一个常见问题:执行到长任务的中途,"忘了"最初的目标,开始朝某个子任务偏移。Sonnet 4对这个问题有明显改善——它更能"记住"任务的主线,即使在执行很多步骤之后。

另一个观察:Sonnet 4在遇到模糊指令时,更倾向于主动澄清,而不是自己猜着做。这对自动化流程来说是双刃剑——它减少了"猜错了做了半天"的情况,但也增加了"需要更多轮次确认"的成本。

切换成本

如果你现在用Sonnet 3.7,切到Sonnet 4的成本很低。API兼容,不需要改代码。但建议做一轮回归测试,特别关注:格式化输出有没有变化、之前调过的prompt有没有行为改变、工具调用的错误率变化。

我们切换时,有两个老prompt需要微调——一个是因为Sonnet 4更"听话"了,原来专门规避它乱加说明文字的防御性提示词可以删掉了;另一个是需要给它更明确的"不需要澄清,直接执行"的指令,不然它会多问一轮。

SFD编者注

总结下来:Sonnet 4是一次"夯实基础"的升级,不是革命性突破。它在可靠性、指令遵循、工具调用这些"基建"层面做得更好,这对生产环境的智能体来说很重要。我们SFD实验室的14个智能体已经全切到Sonnet 4,用了两周,整体满意。主要好处不是某个功能突然特别厉害,而是"出幺蛾子"的频率降低了——这在Agent运维里,价值比任何新功能都大。

留言区

欢迎分享你的想法!

发表留言

0/500

加载留言中…