AnyText 工具上线，阿里巴巴如何解决 AI 绘画中文难题？

2024 年 8 月 12 日，阿里巴巴达摩院宣布推出名为 AnyText 的工具，解决了 AI 绘画无法生成和编辑中文的问题。这一技术能够在图像中生成和修改中文文字，并与背景融合，提高了电商配图的制作效率。在展示视频中，AnyText 生成了鞋子商品的电商配图，配图上显示了 “双十二大促，立减 50，加绒加厚” 等字样。

AnyText 工具的核心技术基于阿里巴巴智能计算研究院的团队开发的多语言视觉文本生成和编辑模型。该模型通过扩散算法和 OCR 技术，能够在图像中生成和编辑多语言文本，包括中文、英文、日文和韩文等。AnyText 包括两个主要元素的扩散管线：辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用 OCR 模型对笔划数据进行编码，这些编码与来自分词器的图像标题嵌入结合，生成与背景融合的文本。

AnyText 工具提供了两种主要模式：文本生成模式和文字编辑模式。在文本生成模式下，用户可以在提示符中输入想要在图片中生成的文字描述，然后手动绘制文字的位置。需要注意的是，绘制的位置不宜过于随意或过小，位置数量要与文本行数匹配，每个位置的大小应与文本行的长度或宽度尽量一致。如果手动绘制不便，也可以尝试使用随机位置功能。在文字编辑模式下，用户需要先在参考中上传参考图，然后调整画笔大小，标记需要编辑的区域。在提示中输入新文字描述后，即可对参考图中的文字进行编辑。

AnyText 在电商领域的应用前景广泛。电商平台上的商品配图通常需要包含大量的文字信息，如促销信息、商品特点等。传统的做法是由设计师手动添加这些文字，既耗时又容易出错。而 AnyText 的出现，简化了这一过程。通过 AnyText，电商设计师只需输入文字描述，AI 就能自动生成与背景融合的文字，提高了工作效率。

与其他 AI 绘画和文字生成工具相比，AnyText 具有优势。目前市场上已有不少 AI 绘画和文字生成工具，如谷歌的 AI 图像编辑功能、DALL・E、MidJourney 等。这些工具在生成逼真图像和艺术感方面表现出色，但在文字生成和编辑方面，特别是中文文字的生成和编辑，仍存在一定的局限性。AnyText 通过其扩散算法和 OCR 技术，解决了这一难题，能够在图像中生成和编辑中文文字。

此外，AnyText 还在其他领域展现了其应用潜力。例如，在广告创意和媒体制作中，AnyText 可以帮助设计师生成文字内容，提高创作效率。在教育和培训领域，AnyText 可以用于制作教学材料和培训资料，提供更加生动和直观的学习体验。