GPT-4o 图像生成功能正式上线了!这是今天 AI 领域最大的新闻。
北京时间 3 月 26 日,OpenAI 宣布 GPT-4o 的图像生成功能正式上线,并开始向 ChatGPT Plus、Pro、Team 与免费用户逐步开放。这项功能何时才能到达所有用户手中?据 The Verge 报道,企业版与 API 接口计划在未来数周内开放,而现有 DALL・E 用户仍可通过自定义 GPT 继续使用旧服务。
作为 OpenAI 最新的技术突破,GPT-4o 的图像生成能力到底强在哪里?这是用户最关心的问题。从官方介绍和多方测试来看,它解决了图像生成领域的一大痛点 —— 文字渲染。
GPT-4o 采用自回归生成方法,能实现前所未有的精准文本渲染,这意味着你可以在图像中生成准确的文字,无论是路牌、菜单、海报还是海湾大桥旁白板上的文字,都能被准确呈现。与之前的模型相比,这是质的飞跃。
除了文字渲染,GPT-4o 在几个关键方面展现出色:
- 能够准确处理 15-20 个对象的属性关联,远超其他系统 5-8 个的处理能力;
- 支持科学实验图、多角色漫画等复杂场景生成;
- 生成图像将嵌入 C2PA 元数据,标识 AI 来源;内置安全机制,可拦截深度伪造等违规内容;
- 能将 GPT-4o 的知识库和聊天上下文作为灵感来源。
在实际演示中,OpenAI 展示了多个令人印象深刻的案例。例如,能够生成一名女子在俯瞰海湾大桥的房间里用笔在白板上写字的场景,衣服上甚至印有 OpenAI 字样,白板还映着摄影师的身影 —— 这种复杂场景的准确呈现,在以往的模型中几乎不可能实现。
更令人惊讶的是,当要求摄影师走到镜头前与女子击掌时,GPT-4o 能保持前后一致性,白板上的字不会变得凌乱,女子的身形和发型也与前一张图像呈现的背影一致。
对比国内现有图像生成能力,差距显而易见。记者测试发现,目前国内领先的豆包 APP 和智谱清言 APP 在生成中文文字时仍存在明显问题。当输入「生成一张图片,一个人在看墙上歌手演唱会的海报,海报用中文写着演唱会日期、演唱会主题描述、歌曲名称」时,智谱清言生成的海报中出现不少乱码,而豆包虽然中文文字准确,但理解有所偏差。
当然,GPT-4o 图像生成功能也存在一些限制:
- 存在幻觉现象;难以呈现太多依赖知识库的图像要素(如元素周期表);
- 图表准确性不足;
- 呈现非拉丁语言时可能容易出现幻觉;
- 修改图像中的错别字时难以精准编辑。
对于使用限制,OpenAI 表示免费用户的使用限额与 DALL・E 相同,但没有透露具体数字,并表示「这些限制可能会根据需求变化而调整」。据 ChatGPT FAQ,此前免费用户每天可以使用 DALL・E 3 生成三张图像。
令人好奇的是,GPT-4o 的图像生成使用了与大多数图像生成器不同的技术路线。研究负责人 Gabriel Goh 透露,系统采用了自回归方法 —— 类似于文本生成方式,从左到右、从上到下顺序生成图像,而不是大多数图像生成器(如 DALL・E)使用的扩散模型技术。这种技术差异可能是 GPT-4o 在文本渲染和属性绑定能力上优于其他模型的原因。
尽管 GPT-4o 生成图像的时间比以前更长,但 OpenAI 认为这是值得的取舍。ChatGPT 多模态产品负责人 Jackie Shannon 表示:「虽然我们在延迟方面肯定有改进空间…但这些图像的质量、能力和世界知识,真的弥补了用户等待的额外几秒钟。」
从商业应用角度看,GPT-4o 在设计与品牌、教育、游戏开发、市场营销等方面展示了其强大能力。这次升级无疑将进一步扩大 OpenAI 在 AI 生成内容领域的领先地位。
正如 OpenAI CEO Sam Altman 所说,这次发布是「创造力的新高峰」。而对于整个行业来说,图像生成能力的这一突破,将进一步推动 AI 在创意领域的应用边界。随着企业版与 API 接口在未来数周内开放,我们有理由期待更多创新应用的出现。
说来有趣,就在两个月前,OpenAI 还宣布了其视频生成产品 Sora,如今又带来图像生成的重大突破。从文本到图像再到视频,OpenAI 似乎正在全面构建一个完整的 AI 创意工具链。对于国内 AI 企业而言,如何追赶这一差距,将是一个严峻的挑战。