Meta FAIR 研究团队推出了名为 MoMa(模态感知专家组合)的新架构,用来提升处理图像和文本等多种信息的效率。根据测试结果,MoMa 在节省 FLOPs 方面效率提升了 3.7 倍。而在加入 MoD 技术后,MoMa+MoD 的 FLOPs 节省效果达到了 4.2 倍。
研究人员采用了一种方法,根据不同的输入类型,把处理信息的 “专家” 分成多个小组,每个小组有自己专注的任务,从而提高了工作效率。MoMa 架构还引入了分层路由机制,这个机制允许模型在计算时跳过无关内容,确保每个内容都能找到最适合的 “专家”。为了在推理阶段保持输出的关联性,MoMa 还引入了辅助路由器,进一步优化了模型的复杂性与性能。
MoMa 架构的核心在于将 “专家” 分成多个小组,每个小组专注于特定类型的数据处理任务。比如,有的专家负责处理文本数据,而另一些则专门处理图像数据。这种分组策略的好处包括:
- 每个小组专注于自己擅长的任务,提高整体处理效率。
- 任务分配给最适合的专家组,避免不必要的资源浪费。
MoMa 架构中引入了分层路由机制,让模型在计算时可以选择性地跳过一些无关的内容。其工作原理如下:
- 根据输入数据的类型和内容,动态选择最适合的专家组进行处理。
- 模型在处理过程中可以跳过无关内容,从而减少不必要的计算。
为了确保每个标记的输出都保持关联,MoMa 架构中还引入了辅助路由器。它的主要功能包括:
- 确保每个标记都能找到最适合的专家进行处理。
- 在推理阶段,辅助路由器确保输出的标记保持关联,从而兼顾模型的复杂性与性能。
MoMa 架构在处理多模态数据(如图像和文本)方面表现如下:
- 在图像识别和分类任务中,MoMa 架构能够处理大量图像数据。
- 在自然语言处理任务中,MoMa 架构能够处理复杂的文本数据。
与标准的 MoE 模型相比,MoMa 模型在性能上有提升:
- MoMa 模型实现了 3.7 倍的整体 FLOPs 节省,结合 MoD 技术后,节省效果提升至 4.2 倍。
- 在处理相同量的数据时,MoMa 模型的数据吞吐量减少了 17%,而标准 MoE 模型的吞吐量减少为 9%。
在实际应用中,MoMa 架构得到了用户的反馈:
- 用户反映,MoMa 架构在处理速度和准确性方面表现良好,提升了工作效率。
- 在多个实际应用场景中,MoMa 架构展现出了处理能力和稳定的性能。