Emu3 模型的秘密：多模态数据一体化处理好在哪？

智源研究院于 2024 年 10 月 21 日发布了多模态模型 Emu3。该模型使用统一的 token 预测范式来处理图像、文本和视频，实现多模态理解和生成。Emu3 不依赖扩散模型，直接通过预测下一个 token 生成图像和视频，并支持 Any-to-Any 任务的多模态转换。

Emu3 在多个任务中展现出性能，涉及图像生成、视觉 – 语言理解和视频生成。其创新在于采用视觉 tokenizer 将视频和图像转化为 token，与文本共同处理，从而实现多模态数据的处理。Emu3 的架构简洁高效，通过多模态 Tokenizer、统一的 Transformer 架构和自回归训练进行实现。

该模型的设计包括大规模参数、用于长序列处理的注意力机制和多模态嵌入。通过自回归训练和大规模预训练，Emu3 在任务微调中表现良好。这验证了统一范式的可行性，简化了模型架构，并扩展了 AI 应用范围。