ChatGPT文生图升级：告别DALL·E，体验更精准的AI图像创作

昨晚Open AI悄然升级了ChatGPT的文生图能力，这场看似微小的调整实则是一场技术革命。过去ChatGPT需要借助DALL-E模型生成图像，如今这项功能已无缝集成到ChatGPT内部，显著提升了图像生成的精准度。那么什么是精准度？Open AI官方解释为”完美契合用户需求”，以生成戴眼镜的猫咪为例，系统会先分析用户意图，再逐步完善图像细节，最后提供修改选项让用户直接调整不满意的部分。

在官方直播演示中，研究人员展示了ChatGPT惊人的转换能力：将一张普通合影转化为动画风格，效果出人意料；还能在图像中添加文字标注，如”Feel The AGI”等。这些演示令人印象深刻，但作为技术爱好者，我决定亲自验证。为了对比不同模型的能力差异，我让助手Qwen设计了一个复杂提示词：”想象一个赛博朋克场景，霓虹灯闪烁的高楼大厦间，广告屏闪烁着光芒，街道上悬浮车穿梭，无人机在紫色月空中飞行，行人穿着未来感服装，从高空俯瞰整个城市，要求画面高清且细节丰富。”

ChatGPT文生图升级：告别DALL·E，体验更精准的AI图像创作

将这个提示词分别输入GPT和即梦AI，不到20秒GPT就生成了图像。对比两幅作品，虽然都展现了赛博朋克氛围，但细节处理各有千秋。GPT生成的图像在清晰度上稍显不足，而即梦AI通过点击”细节修复”和”超清功能”按钮，能显著提升画面质量。在尺寸调整方面，GPT展现出更强的交互性，会提供两种方案并询问用户偏好。这种人性化的设计值得称赞。

更令我感兴趣的是GPT的新功能——世界知识系统。官方宣称这项功能能让AI在生成图像时融入现实世界知识，确保图像既符合用户要求又符合逻辑。比如不会在雪山上出现热带植物，也不会在古代场景中出现现代科技产品。我尝试用这个功能创作一幅解释牛顿第三定律的图像：两个人滑板上互相推挤，系统不仅准确展示了作用力与反作用力关系，还贴心添加了箭头和英文标注。虽然这个功能很有创意，但与专业图像工具相比，表现还略显稚嫩。

ChatGPT文生图升级：告别DALL·E，体验更精准的AI图像创作

Sam Altman对这款升级产品评价极高，认为其生成的图像令人难以置信，并期待用户用它创作更多创意内容。他强调Open AI致力于平衡创作自由与责任，确保AI发展符合道德标准。这些表态固然重要，但更值得关注的是Open AI为什么要用新模型替代DALL-E。要知道DALL-E自2021年发布以来一直在迭代，其核心架构是自回归模型，通过逐个token生成图像，虽然能保证细节，但速度慢且难以调整。

Open AI的新选择是非自回归模型，这种架构先整体理解图像结构再逐步细化，就像学生先听老师讲解题目再逐步作答。这种模型的优势在于：一、生成速度快；二、整体表现更强，尤其擅长处理复杂场景中多个物体间的关系；三、对文字指令理解更精准；四、灵活度高，可融合多模态内容。这就是Open AI这次升级的本质——一场技术架构的革命。

放眼全球文生图领域，国内企业早已布局非自回归模型。2023年阿里巴巴、科大讯飞等企业已将这项技术应用于实际产品。微软在2022年5月就进行了相关研究，而这项技术最早在2018年ICLR会议上被提出。Open AI的这次升级，或许正是看到了国内技术的成熟而做出的战略调整。这场技术革命不仅提升了ChatGPT的竞争力，更预示着AI图像生成将进入全新发展阶段。

文章网址：https://www.wpbull.com/ai/24610.html

ChatGPT文生图升级：告别DALL·E，体验更精准的AI图像创作

相关推荐