智源研究院于 2024 年 10 月 21 日发布了多模态模型 Emu3。该模型使用统一的 token 预测范式来处理图像、文本和视频,实现多模态理解和生成。Emu3 不依赖扩散模型,直接通过预测下一个 token 生成图像和视频,并支持 Any-to-Any 任务的多模态转换。
Emu3 在多个任务中展现出性能,涉及图像生成、视觉 – 语言理解和视频生成。其创新在于采用视觉 tokenizer 将视频和图像转化为 token,与文本共同处理,从而实现多模态数据的处理。Emu3 的架构简洁高效,通过多模态 Tokenizer、统一的 Transformer 架构和自回归训练进行实现。
该模型的设计包括大规模参数、用于长序列处理的注意力机制和多模态嵌入。通过自回归训练和大规模预训练,Emu3 在任务微调中表现良好。这验证了统一范式的可行性,简化了模型架构,并扩展了 AI 应用范围。