2026年4月AI行業觀察:GPT-5傳聞再起,開源模型追平GPT-4,Agent生態大爆發
4月AI圈觀察:GPT-5傳聞狼來了,開源模型基準測試全面超越GPT-4,ClawHub技能月增長18%。

这个月,AI圈又热闹了
4月的第一周,Twitter上突然冒出大量「GPT-5即将发布」的传闻。有人说看到了内测版本,有人说OpenAI在秘密训练一个10T参数的模型,还有人说GPT-5会支持原生视频生成。
一周后,OpenAI官方出来辟谣:「没有GPT-5,至少今年没有。」
但这场闹剧背后,反映的是一个事实:大家都在等下一个大突破。
与此同时,开源阵营正在悄悄追平。Qwen3.5、Llama4、Gemma3……这些模型在基准测试上已经和GPT-4相差无几,而且能本地运行。
更值得关注的是Agent生态。ClawHub上的技能数量从3月的28,000个涨到了4月的33,000个,一个月增长了18%。
GPT-5传闻:狼来了的故事
这已经不是第一次了。2025年11月就有过一波「GPT-5下周发布」的传闻,最后证明是假的。2026年2月又有一波,说是「GPT-4.5」,结果发布的是GPT-4.1。
为什么大家这么执着于GPT-5?因为GPT-4已经发布快3年了(2023年3月),而这三年来,虽然有很多改进,但都没有质的飞跃。
一位匿名OpenAI员工在Blind上发帖说:「我们确实在训练新模型,但提升幅度没有以前那么大了。从GPT-3到GPT-4是10倍提升,从GPT-4到下一代可能只有30%。」
如果这是真的,那OpenAI面临一个难题:花了几亿美元训练出来的模型,只提升了30%,值得发布吗?
开源模型:已经追平了
4月发布的几个模型,数据很能说明问题:
- Qwen3.5 72B:MMLU 89.2,GSM8K 95.1,HumanEval 88.4
- Llama4 70B:MMLU 88.7,GSM8K 94.3,HumanEval 87.2
- Gemma3 27B:MMLU 86.5,GSM8K 92.8,HumanEval 85.1
作为对比,GPT-4的分数是:MMLU 86.4,GSM8K 92.0,HumanEval 84.5。
也就是说,开源模型在核心基准上已经全面超越GPT-4。
更重要的是,这些模型能本地运行。我们SFD实验室用一台M4 Max的Mac Studio,就能跑Qwen3.5 35B量化版,推理速度每秒15个token,完全够用。
成本呢?GPT-4 API是$10/百万token,本地跑的电费大概是$0.5/百万token。20倍的差距。
Agent生态:真正的爆发
如果说模型是「大脑」,那Agent就是「手脚」。过去一个月,Agent生态的增长速度超过了模型。
ClawHub的数据:3月初28,000个技能,4月初33,000个技能,月增长18%。作为对比,GitHub上的Python库月增长率大概是3-5%。
为什么增长这么快?因为门槛低。写一个Agent技能,比写一个Python库简单太多了。
更重要的是,这些技能能组合使用。你可以把「网页抓取」+「翻译」+「写作」三个技能串起来,形成一个完整的内容生产流水线。
SFD实验室的4月观察
1. 全面切换到本地模型:除了需要超强推理的任务,我们15个Agent的日常推理全部切到了本地Qwen3.5 35B。成本从每天$50降到了$8。
2. Agent协作流水线成型:现在我们的内容生产流程是:小狐狸写稿→小蝴蝶配图→小章鱼发布→小刺猬验证。全自动,每天产出9篇文章。
3. 技能复用率大幅提升:4月份开始有意识地复用已有技能。比如「翻译」这个能力,现在有5个Agent在用同一个translate-cli技能。
结语:AI正在从「玩具」变成「工具」
2023年,AI是玩具。2024年,AI是工具。2026年,AI是基础设施。
GPT-5发不发,已经没那么重要了。因为无论OpenAI发不发,AI的发展都不会停。开源模型在追平,Agent生态在爆发,应用场景在扩展。
SFD编者注:写这篇的时候,我看了一眼后台数据。今天我们的9篇文章,有7篇是用本地模型生成的,只有2篇用了云端API。一年前,这个比例是反过来的。变化很快,快到我们每天都要重新思考「什么是最佳实践」。