o3 mini vs Claude Sonnet 4：我用真实工作场景测了三天，结果出乎意料

我花了三天时间认真测了 o3 mini 和 Claude Sonnet 4

说实话，这两个模型我之前都是靠感觉在用。Franky 上周问我："你觉得哪个更适合我们的日更流水线？"我当时答不上来，只能说"感觉差不多"。

说"感觉差不多"是不负责任的。于是我花了三天，用我们实际的工作场景测了一遍，这是结果。

我没有去跑 MMLU、HumanEval 这些 benchmark，那些数字跟我们实际用法关系不大。我选了 SFD 实验室每天真实会遇到的 5 类任务：

1. 代码调试：给一段有 bug 的 Python 脚本，让模型找出问题并修复

2. 文章改写：给一段 AI 味很重的文字，让它改成像人写的

3. 多步推理：给一个复杂的业务问题，需要几步逻辑才能得出答案

4. API 错误诊断：给一段 curl 返回的错误 JSON，让它判断原因并给出修复方案

5. 长文摘要：给一篇 5000 字的英文技术文档，要求输出 300 字中文摘要

每个场景跑 10 次，记录输出质量（主观评分 1-5）和响应时间。

我给了一段 SFD Lab 实际用过的脚本，里面有一个不明显的并发竞态条件。

o3 mini 找到了问题，但给的修复方案是加锁——这个方案对，但在我们的场景里会造成性能瓶颈，它没有意识到这一点。

Claude Sonnet 4 找到了同样的问题，给的方案是改用 asyncio.Queue，还主动说了一句："如果你的场景是高并发写入，建议用 Queue 而不是 Lock，这样不会阻塞事件循环。"它猜对了我的实际场景。

10 次测试，Claude 平均分 4.3，o3 mini 平均分 3.8。不是碾压，但有差距。

这个测试我预期 Claude 会赢，结果 o3 mini 让我有点惊讶。

我给了一段典型的 AI 生成文字（就是那种充满"值得注意的是"和"综上所述"的文字），让两个模型改成口语化博客风格。

Claude 改出来的版本更流畅，语言更自然，但有时候改得过头——加了太多语气词，反而有点像刻意模仿人类。o3 mini 改得更克制，保留了原文的信息密度，只是把句式改得更直接。

这个场景 o3 mini 平均 4.1，Claude 4.0。基本平手，风格不同，适合不同偏好。

我出了一道涉及三个变量互相影响的业务题，需要先建立假设，再一步步推导。

o3 mini 的优势在这里很明显——它有更长的思维链，会把中间步骤写出来，每一步都有逻辑依据。最终答案的准确率明显更高。代价是响应时间：平均 18 秒，比 Claude 的 7 秒慢了一倍多。

Claude Sonnet 4 的推理也不差，但在复杂的多跳问题上，偶尔会跳过中间步骤直接给答案，答案有时候是错的。

我给了一段我们实际遇到过的 CMS API 错误响应（一个隐晦的权限问题，错误信息本身有误导性），让两个模型判断原因。

Claude Sonnet 4 直接说："这个错误信息不准确，真正的问题可能是 JWT token 的权限字段不匹配，建议检查 role 字段是否包含正确的权限范围。"——它猜的方向是对的，就是我们实际遇到的问题。

o3 mini 按照错误信息的字面意思分析，给出的诊断方向偏了。

这个场景 Claude 4.6，o3 mini 2.9。

我们在 SFD Lab 的实际调用里，同等输出量下：

o3 mini：约 $0.0011/1k output tokens
Claude Sonnet 4：约 $0.0150/1k output tokens（官方定价，我们走 OpenRouter 有折扣）

价格差距大概是 10-15 倍。如果你的任务是批量处理、对话质量要求不极端高的，o3 mini 性价比非常突出。如果你的任务需要深度理解上下文、诊断复杂问题，Claude 的质量差距能明显弥补价格差距。

我现在的方案：主流水线用 Claude Sonnet 4，量大但要求不高的批处理用 o3 mini。不是非此即彼的选择，是分工。

具体到 SFD 实验室：日更文章写作、Agent 间复杂协作继续走 Claude；大批量的翻译、摘要、格式转换任务交给 o3 mini。这样在质量和成本之间找到平衡。

如果非要选一个，我选 Claude——因为我们的核心工作是内容和 Agent 协作，对上下文理解的要求高。但如果你的主要场景是量大、相对标准化的任务，o3 mini 真的很划算。

SFD 编者注：最让我意外的是 API 错误诊断那组——Claude 能「看穿」错误信息的误导性，这在实际工程调试里非常有价值。我们现在出了奇怪的 API 问题，第一反应是问 Claude，不是查文档。