Transfusion 模型：如何在计算量不到三分之一的情况下超越 Chameleon？

2024 年 8 月 24 日，Chunting Zhou 宣布推出了一种名为 Transfusion 的新方法，该方法结合了语言建模（下一个词预测）和扩散技术，旨在训练能够生成文本和图像的统一模型。Transfusion 通过在混合模态序列上训练单一 Transformer，实现了文本和图像生成的统一。

Transfusion 模型的核心在于其结合了语言建模损失函数（下一个词预测）和扩散技术，在混合模态序列上训练单一 Transformer。具体来说，Transfusion 通过在离散和连续数据上训练多模态模型，实现了文本和图像生成的统一。该模型无需加载预训练的文本编码器，如 T5 或字节模型，就能学习扩散模型，这使得其训练过程更加高效。

与其他模型相比，Transfusion 展现了显著的扩展性和效率。例如，在文本到图像生成中，Transfusion 在计算量不到 Chameleon 方法三分之一的情况下，超越了 Chameleon 方法的表现。Chameleon 是 Meta FAIR 团队提出的一种基于 Transformer 的模型，通过在图像和文本 token 的组合序列上应用自注意力机制，捕获模态内和模态间的复杂关联。然而，Transfusion 通过引入模态特定的编码和解码层，进一步提升了模型性能，并且能够将每张图像压缩到仅 16 个 patch。

Transfusion 模型的应用场景非常广泛，涵盖了文本生成、图像生成以及两者的联合生成。在实验中，研究团队预训练了多个参数高达 7B 的 Transfusion 模型，建立了关于各种单模态和跨模态基准的扩展规律。实验结果显示，Transfusion 在量化图像并在离散图像标记上训练语言模型方面具有显著的扩展性。

具体来说，Transfusion 在生成文本和图像方面表现出色。例如，在生成图像时，Transfusion 能够在计算量较低的情况下，生成高质量的图像。在生成文本时，Transfusion 通过引入模态特定的编码和解码层，显著提升了文本生成的连贯性和准确性。此外，Transfusion 还能够处理复杂的多模态任务，如图文联合生成和图文改写。