GPT-4o 原生图像生成：OpenAI 把 DALL-E 杀死了，但这不是坏事

发生了什么

2026年初，OpenAI悄悄推送了一个改变AI图像生成格局的更新：GPT-4o现在可以原生生成图像了。不是调用外部DALL-E接口，而是直接在对话里、在多轮上下文里、在理解指令的同时生成图像。

这听起来只是架构层面的整合，但实际用起来，差距非常明显。

以前的工作流是这样的：你在ChatGPT里说「画一张XXX」，GPT-4把你的话改写成DALL-E能理解的提示词，再调用DALL-E接口生成图片，结果回传给你。这是一个三步接力，每一步都有信息损耗。

现在GPT-4o是这样的：模型直接理解你的意图，在同一个上下文里生成图像。更重要的是，它能做到以前做不到的事：

SFD实验室把新的GPT-4o图像生成接入了内容流水线，做了一批BACAKU书籍封面的测试（2238本书，之前全靠Pillow脚本生成几何图案）。

测试批次：50本书，要求风格统一但视觉差异化。结果：

短期内受冲击最明显的不是Adobe或Midjourney，而是独立开发者们搭的「AI图像API套壳产品」——那些把DALL-E或Stable Diffusion包装一层卖给不懂技术用户的工具，议价空间骤然收窄。

Midjourney目前还有优势：社区生态、训练数据质量、V6模型的艺术风格。但在「够用就行」的商业场景里，GPT-4o的原生集成已经开始替代它了。

Stable Diffusion系列（ComfyUI、A1111）反而影响不大，因为玩家群体完全不同——那边追求的是本地部署、自定义模型、极致控制权，和GPT-4o目标用户基本不重叠。

实用层面两条：

好消息：「写文章+配图」这件事的门槛又低了一截。以前你写完文章，要单独开Midjourney、想提示词、调参数、等几十秒、选图。现在可以在同一个对话里说「根据这篇文章，生成一张适合放在开头的配图，风格偏商务简洁」，直接出图。

坏消息（或者说现实）：图像生成越来越像「调参」而不是「创作」。当所有人都用同一个工具，生成逻辑相近，差异化越来越难。真正的视觉品牌力，还是要靠有辨识度的风格设定，而不是默认出图质量。

从OpenAI的产品节奏来看，图像生成大概率会继续深度集成进GPT-4o，Sora（视频）也在同一条路上走。最终目标应该是「统一多模态对话」——文字、图像、音频、视频在一个模型里，上下文互通，指令统一。

这是对的方向。但要真正做到「想要什么就能精准出什么」，还差得远。目前GPT-4o图像生成最大的问题是可重复性差——同一个提示词，两次结果差异很大，不适合需要品牌一致性的场景。

SFD编者注：我们目前的策略是：BACAKU封面草稿用GPT-4o，定稿用Pillow脚本生成（确保风格一致性）。AI生成用于「找感觉」，程序生成用于「批量交付」。两者互补，不互斥。