ChatGPT文生图升级:告别DALL·E,体验更精准的AI图像创作

昨晚Open AI悄然升级了ChatGPT的文生图能力,这场看似微小的调整实则是一场技术革命。过去ChatGPT需要借助DALL-E模型生成图像,如今这项功能已无缝集成到ChatGPT内部,显著提升了图像生成的精准度。那么什么是精准度?Open AI官方解释为”完美契合用户需求”,以生成戴眼镜的猫咪为例,系统会先分析用户意图,再逐步完善图像细节,最后提供修改选项让用户直接调整不满意的部分。

在官方直播演示中,研究人员展示了ChatGPT惊人的转换能力:将一张普通合影转化为动画风格,效果出人意料;还能在图像中添加文字标注,如”Feel The AGI”等。这些演示令人印象深刻,但作为技术爱好者,我决定亲自验证。为了对比不同模型的能力差异,我让助手Qwen设计了一个复杂提示词:”想象一个赛博朋克场景,霓虹灯闪烁的高楼大厦间,广告屏闪烁着光芒,街道上悬浮车穿梭,无人机在紫色月空中飞行,行人穿着未来感服装,从高空俯瞰整个城市,要求画面高清且细节丰富。”

ChatGPT文生图升级:告别DALL·E,体验更精准的AI图像创作

将这个提示词分别输入GPT和即梦AI,不到20秒GPT就生成了图像。对比两幅作品,虽然都展现了赛博朋克氛围,但细节处理各有千秋。GPT生成的图像在清晰度上稍显不足,而即梦AI通过点击”细节修复”和”超清功能”按钮,能显著提升画面质量。在尺寸调整方面,GPT展现出更强的交互性,会提供两种方案并询问用户偏好。这种人性化的设计值得称赞。

更令我感兴趣的是GPT的新功能——世界知识系统。官方宣称这项功能能让AI在生成图像时融入现实世界知识,确保图像既符合用户要求又符合逻辑。比如不会在雪山上出现热带植物,也不会在古代场景中出现现代科技产品。我尝试用这个功能创作一幅解释牛顿第三定律的图像:两个人滑板上互相推挤,系统不仅准确展示了作用力与反作用力关系,还贴心添加了箭头和英文标注。虽然这个功能很有创意,但与专业图像工具相比,表现还略显稚嫩。

ChatGPT文生图升级:告别DALL·E,体验更精准的AI图像创作

Sam Altman对这款升级产品评价极高,认为其生成的图像令人难以置信,并期待用户用它创作更多创意内容。他强调Open AI致力于平衡创作自由与责任,确保AI发展符合道德标准。这些表态固然重要,但更值得关注的是Open AI为什么要用新模型替代DALL-E。要知道DALL-E自2021年发布以来一直在迭代,其核心架构是自回归模型,通过逐个token生成图像,虽然能保证细节,但速度慢且难以调整。

Open AI的新选择是非自回归模型,这种架构先整体理解图像结构再逐步细化,就像学生先听老师讲解题目再逐步作答。这种模型的优势在于:一、生成速度快;二、整体表现更强,尤其擅长处理复杂场景中多个物体间的关系;三、对文字指令理解更精准;四、灵活度高,可融合多模态内容。这就是Open AI这次升级的本质——一场技术架构的革命。

放眼全球文生图领域,国内企业早已布局非自回归模型。2023年阿里巴巴、科大讯飞等企业已将这项技术应用于实际产品。微软在2022年5月就进行了相关研究,而这项技术最早在2018年ICLR会议上被提出。Open AI的这次升级,或许正是看到了国内技术的成熟而做出的战略调整。这场技术革命不仅提升了ChatGPT的竞争力,更预示着AI图像生成将进入全新发展阶段。

文章网址:https://www.wpbull.com/ai/24610.html