26日凌晨,OpenAI再次掀起人工智能领域的热潮,正式发布了GPT-4o的多模态生图功能!
简单来说,就是一句话或一张图,就能让GPT-4o帮你生成超逼真图片!
小编体验了下,确实牛,下面是体验地址:
体验地址:https://share.dufuai.com
长按二维码即可进入
接下来,咱们就来好好剖析一下,看看它到底藏着哪些“硬核黑科技”!
1、文字渲染“大升级”
以前的 AI 图像生成,文字渲染一直是老大难问题,生成的文字不是乱码,要就是残缺不全,让人看得一头雾水,但 GPT-4o 生成的文字清晰又准确,和印刷体简直一模一样。
2、上下文关联“无缝衔接”
假如你很清楚自己想要什么,可以直接上传图片,让它参考图片的风格,实现精准输出,这种“上下文关联”的能力,让生成的图像更加符合你的预期。
3、持续生成“一气呵成”
GPT-4o可以通过对话逐步完善图像,并且始终保持内容一致。这种“持续生成”的能力,是它的原生功能,你可以一边和它交流,一边看着图像逐渐变得完美。
4、理解能力“大飞跃”
过去AI理解的和你想的完全对不上号,但现在GPT-4o 能听懂人话了,它能够更准确地理解你的意图,哪怕提示词(prompt)里包含 10 - 20 个不同的物体,对它来说也是轻轻松松。
5、风格百变“随心所欲”
GPT-4o 的风格简直“百变”,只要你能想得到,它就能给你画出来。它能轻松驾驭各种风格的图像,满足你的各种奇思妙想。
6、贯通现实知识“学以致用”
GPT-4o 的绘图还能直接从大模型中获取知识,生成与现实世界知识相符的图像。
不信?咱们来欣赏几张图,你们感受一下:
示例1:令人难以置信的街道标志等文本生成
一张坦率的狗仔风格照片,卡尔·马克思匆忙走过美国购物中心的停车场,回头用惊讶的表情看着,试图避免被拍照。他手里抓着多个装满奢侈品的光滑购物袋。他的外套在风中飘动,其中一个袋子在他迈步时摇摆。模糊的背景中有汽车和发光的购物中心入口,以强调运动。相机的闪光灯部分过曝了图像,给人一种混乱的小报感觉。
示例2:令人难以置信的街道标志等文本生成
创造一个逼真的图像,描绘两个二十多岁的女巫阅读路标。背景:纽约州威廉斯堡市一条随机街道上的城市街道,有一根杆子完全覆盖着许多详细的街道标志,中间包括一些荒谬的标志:“C区不允许女巫扫帚停车”和“仅限魔法地毯装卸(15分钟限制)”以及“仅限许可证下的驯鹿停车(12月24日至25日)n违规者将被列入淘气名单。”路标位于街道右侧。不要重复标志。标志必须逼真。字符:一个女巫拿着扫帚,另一个拿着卷起的魔毯。他们在前景中,稍微向后转向相机,头稍微倾斜,仔细观察标志。从背景到前景的构图:街道+停放的汽车+建筑物->路标->女巫。角色必须离拍摄的相机最近
示例3:从文字到图像的无缝衔接
“用手机拍摄的玻璃白板的宽幅图像,房间可以俯瞰海湾大桥。视野中显示一位女士正在书写,穿着一件带有大型OpenAl标志的T恤。笔迹看起来自然且略显凌乱,我们看到了摄影师的倒影。”
GPT-4o 可以快速生成符合用户期望的图像。
更令人惊喜的是,GPT-4o 支持多轮对话修改功能。用户可以借助文字指令,一步步精细调整图像的细节。如果需要进一步优化图像,可以直接再次输入以下提示词:
“摄影师的自拍视角,当她转身与他击掌”
极大地提升了创作的自由度。
示例4:一句话修改屏幕里的UI
把图里的手机界面换成微信的UI界面
示例5:鸡尾酒配方
为我制作一张专业拍摄的逼真图表,标明我酒吧里最畅销的鸡尾酒,并在每种饮料上标注配方。 将配方写在每杯饮料前面的手写卡片上。 卡片是棕色的,文字是黑色。 背景是白色的 标题是“4 种最受欢迎的鸡尾酒”
因为篇幅有限,还有很多的图放不出来了,所以我推荐,大家都可以去试一试。
体验地址:https://share.dufuai.com
长按二维码即可进入
GPT-4o 的多模态图像生成功能无疑是 2025 年 AI 领域的重磅炸弹!
它不仅实现了文字与图像的完美融合,更是将创作的门槛降到了前所未有的低,而生成的效果却足以媲美专业水准。
点击阅读原文立即体验: