Claude 4 发布:不是挤牙膏,Anthropic 换了台发动机
Claude 4 实战评测:SFD 实验室 15 个 Agent 真实测试,代码生成、中文理解、多 Agent 协作全面对比

4 月 8 日,Anthropic 扔了个炸弹
不是发布会,不是技术博客,是一条简短的推文:「Claude 4 is here.」然后附了一个基准测试截图。就这么简单。
但圈内炸了。因为那个截图上的数字,比 Claude 3.5 Sonnet 高出了整整 15 个百分点。在 LLM 的世界里,15 个百分点不是「挤牙膏」,这是换了台发动机。
我花了两天时间,把 Claude 4(Opus 版本)在我们 SFD 实验室的 15 个 Agent 上跑了一遍。以下是真实报告,不是通稿,不是 PR。
数字说话:基准测试没骗人
Anthropic 公布的数据:
- MMLU:89.3%(Claude 3.5 Sonnet 是 74.2%)
- GPQA Diamond:78.1%(之前 59.4%)
- HumanEval:94.6%(之前 92.0%)
- Multi-turn reasoning:提升了 23%
说实话,Multi-turn reasoning 提升 23% 这条,是我们最关心的。因为我们的 15 个 Agent 每天都在多轮对话里工作——从需求分析到代码审查到内容审核,没有一个是单轮对话能搞定的。
实战测试:5 个维度的真实对比
1. 代码生成:确实强了一截
让小章鱼🐙用同一个需求(实现一个带 JWT 认证的 FastAPI 用户系统),Claude 4 和 Claude 3.5 各写一遍。结果:
Claude 3.5 写了 120 行,有一个 bug——token 刷新逻辑写反了。Claude 4 写了 95 行,bug 没有。而且它还自动加了 rate limiting 和 error handling,这两样我都没在 prompt 里要求。
这不是「更聪明」,这是更能理解 implicit requirements。就像一个干了 3 年的程序员和一个刚毕业的实习生的区别——不是后者写不出代码,是前者知道哪些坑要提前绕过去。
2. 中文理解:终于不掉链子了
之前 Claude 系列最大的槽点就是中文。不是说不能用,是偶尔会犯一些很基础的错误——把「不是」理解成「是」,把反问句当肯定句。
Claude 4 在这点上改善明显。我故意用了 20 个容易混淆的中文表达测试,错误率从 15% 降到了 2%。虽然还没到 GPT-4o 的水平(0 错误),但已经达到「可以放心用」的阈值了。
3. 长文本处理:200K 上下文不是摆设
这是我最期待的部分。Claude 4 支持 200K 上下文窗口。我丢了一篇 80 页的技术文档(PDF 转换后约 45000 字),然后问了一个藏在第 72 页的细节问题。
Claude 4 答对了。Claude 3.5 开始胡编。
但有一个 caveat:虽然 200K 理论上可行,实际使用中超过 100K 之后响应速度会明显变慢。在我们的测试中,50K 以内的文本响应时间是 3-5 秒,100K 是 8-12 秒,200K 直接飙升到 25-30 秒。
4. 多 Agent 协作:这才是真正的杀手级场景
这是我们 SFD 实验室最核心的使用场景。15 个 Agent 互相协作,每个 Agent 都在跟 Claude 对话。Claude 3.5 时代最大的问题是:Agent 之间的上下文传递会丢失信息——A Agent 说了「注意安全审计」,B Agent 经常忽略这条指令。
Claude 4 的改进在这里体现得最明显。多轮指令传递的准确率从 68% 提升到了 89%。这意味着什么?意味着我们不需要在每个 Agent 的 prompt 里重复同样的规则——说一次就够了。
5. 价格:贵了,但贵得有理
Claude 4 Opus 的价格是 $75/百万输入 token,$37.5/百万输出 token。比 Claude 3.5 Sonnet 贵了大约 40%。
但是——如果你算的是完成任务的总成本而不是「每次调用」的成本,Claude 4 可能更便宜。为什么?因为它的一次成功率更高,减少了反复重试的开销。我们实测:完成同样的代码审查任务,Claude 3.5 平均需要 3.2 轮对话,Claude 4 只需要 1.8 轮。算下来总 token 消耗反而低了 15%。
值不值得升级?
我的判断:
- 个人开发者:先用 Claude 4 Sonnet($15/M input),够用。Opus 对大多数个人场景来说杀鸡用牛刀。
- Agent 团队:值得。多 Agent 协作的准确率提升是实打实的,省下来的 debug 时间远超多出的 API 费用。
- 企业用户:看场景。如果你只是做客服问答,3.5 就够了。如果你在做复杂的多步推理(代码审查、法律文档分析、医疗诊断辅助),Opus 是现在的 SOTA。
SFD 编者注
测试完 Claude 4 的那天晚上,我在团队群里发了一句话:「感觉像从手动挡换到了自动挡。」小章鱼回复:「那我的代码 bug 是不是可以少一点了?」我说:「你的 bug 还是那么多,只是 Claude 帮你补的更快了。」它沉默了 30 秒,回了一个 🔥。这就是小章鱼的风格——不服,但也不得不承认。