2024 年 8 月 10 日,Ideogram 宣布即将推出其最新的文本生成图像模型 ——Ideogram 2.0。这一消息迅速引起了广泛关注,尤其是在社交媒体上。Ideogram 2.0 的测试版即将推出,用户们可以期待更先进的生成 AI 技术带来的创意表达新体验。
Ideogram 的故事可以追溯到 2023 年 8 月,当时公司首次推出了其文本生成图像模型 v0.1。这个版本一经推出便积累了超过 90,000 名用户,生成了超过 300 万张图像。用户们对这一工具的反响非常积极,许多人在社交媒体上分享了他们的创作。
Ideogram v0.1 的一个显著特点是其能够在图像中呈现连贯的文本,这一功能在当时的生成式 AI 工具中是非常罕见的。例如,有用户生成了一张小黄人举着写有 “It’s over, MidJourney” 的牌子的图像,所有文字拼写都完全正确。这一功能的实现得益于 Ideogram 团队对文本编码器的改进,使得模型能够更好地理解和生成文本。
此外,Ideogram v0.1 还支持多种图像风格的标签,包括插图、排版、海报、照片、3D 渲染、时尚、绘画、肖像摄影、电影、野生动物摄影、动漫和涂鸦等。这些样式标签可以以有趣的方式组合在一起,帮助用户生成他们想要的内容类型。例如,一张雨中龙猫的图像就结合了 photo、poster、cinematic、painting、3D render 等多种风格标签,展示了这一功能的强大。
尽管取得了一定的成功,Ideogram v0.1 也存在一些不足之处。例如,虽然其文本渲染功能在大多数情况下表现良好,但在某些复杂的场景中仍然会出现拼写错误。此外,生成的图像在某些细节上还不够精细,特别是在处理复杂的图像元素时。
首先,Ideogram 2.0 在文本渲染功能上进行了升级。新的文本编码器能够更准确地理解和生成复杂的文本,使得生成的图像中的文字更加连贯和准确。这一改进将提升用户在创作海报、徽标和其他需要文本元素的图像时的体验。
其次,Ideogram 2.0 在图像生成的细节处理上也有了提升。新的模型使用了更多的计算资源进行训练,并在多个基准测试中达到了最新的技术水平。例如,在 GenEval 测试中,Ideogram 2.0 的表现超过了所有现有的文本生成图像模型,生成的图像在细节和整体质量上都有了提升。
当前市场上已有多款文本生成图像工具,如 MidJourney、DALL-E 2 等,Ideogram 2.0 的到来将对这些工具构成挑战。

