GPT-4o 原生图像生成:OpenAI 把 DALL-E 杀死了,但这不是坏事

标签:GPT-4oAI图像生成OpenAIDALL-E多模态
专属插画
GPT-4o 原生图像生成:OpenAI 把 DALL-E 杀死了,但这不是坏事

发生了什么

2026年初,OpenAI悄悄推送了一个改变AI图像生成格局的更新:GPT-4o现在可以原生生成图像了。不是调用外部DALL-E接口,而是直接在对话里、在多轮上下文里、在理解指令的同时生成图像。

这听起来只是架构层面的整合,但实际用起来,差距非常明显。

和之前DALL-E有什么不同

以前的工作流是这样的:你在ChatGPT里说「画一张XXX」,GPT-4把你的话改写成DALL-E能理解的提示词,再调用DALL-E接口生成图片,结果回传给你。这是一个三步接力,每一步都有信息损耗。

现在GPT-4o是这样的:模型直接理解你的意图,在同一个上下文里生成图像。更重要的是,它能做到以前做不到的事:

  • 上下文连贯性:「把这张图里的人换成戴眼镜的」——它记得上一张图,知道你在说什么
  • 文字渲染:图里的英文字母不再乱码,中文还在测试中但已经比以前好很多
  • 精确指令遵循:「左上角放一个红色logo,右下角写公司名」这种布局需求,执行率大幅提升
  • 迭代修改:「把背景改成白色,保持其他不变」——这个功能以前基本靠运气,现在稳定多了

实测:我们拿它干了什么

SFD实验室把新的GPT-4o图像生成接入了内容流水线,做了一批BACAKU书籍封面的测试(2238本书,之前全靠Pillow脚本生成几何图案)。

测试批次:50本书,要求风格统一但视觉差异化。结果:

  • 风格统一度:GPT-4o明显优于纯代码生成,有书籍封面的「感觉」
  • 批量速度:API调用延迟约8-12秒/张,50张约7分钟,可接受
  • 问题:文字渲染还是偶有乱码(约15%),书名里有特殊字符时容易出问题
  • 总体评价:用于封面草稿和原型设计完全够用,量产还需要人工校验

谁受影响最大

短期内受冲击最明显的不是Adobe或Midjourney,而是独立开发者们搭的「AI图像API套壳产品」——那些把DALL-E或Stable Diffusion包装一层卖给不懂技术用户的工具,议价空间骤然收窄。

Midjourney目前还有优势:社区生态、训练数据质量、V6模型的艺术风格。但在「够用就行」的商业场景里,GPT-4o的原生集成已经开始替代它了。

Stable Diffusion系列(ComfyUI、A1111)反而影响不大,因为玩家群体完全不同——那边追求的是本地部署、自定义模型、极致控制权,和GPT-4o目标用户基本不重叠。

对内容创作者意味着什么

实用层面两条:

好消息:「写文章+配图」这件事的门槛又低了一截。以前你写完文章,要单独开Midjourney、想提示词、调参数、等几十秒、选图。现在可以在同一个对话里说「根据这篇文章,生成一张适合放在开头的配图,风格偏商务简洁」,直接出图。

坏消息(或者说现实):图像生成越来越像「调参」而不是「创作」。当所有人都用同一个工具,生成逻辑相近,差异化越来越难。真正的视觉品牌力,还是要靠有辨识度的风格设定,而不是默认出图质量。

接下来会怎样

从OpenAI的产品节奏来看,图像生成大概率会继续深度集成进GPT-4o,Sora(视频)也在同一条路上走。最终目标应该是「统一多模态对话」——文字、图像、音频、视频在一个模型里,上下文互通,指令统一。

这是对的方向。但要真正做到「想要什么就能精准出什么」,还差得远。目前GPT-4o图像生成最大的问题是可重复性差——同一个提示词,两次结果差异很大,不适合需要品牌一致性的场景。

SFD编者注:我们目前的策略是:BACAKU封面草稿用GPT-4o,定稿用Pillow脚本生成(确保风格一致性)。AI生成用于「找感觉」,程序生成用于「批量交付」。两者互补,不互斥。

留言区

欢迎分享你的想法!

发表留言

0/500

加载留言中…