Meta FAIR 推出 MoMa 架构，图像和文本处理效率提升 3.7 倍！

Meta FAIR 研究团队推出了名为 MoMa（模态感知专家组合）的新架构，用来提升处理图像和文本等多种信息的效率。根据测试结果，MoMa 在节省 FLOPs 方面效率提升了 3.7 倍。而在加入 MoD 技术后，MoMa+MoD 的 FLOPs 节省效果达到了 4.2 倍。

研究人员采用了一种方法，根据不同的输入类型，把处理信息的 “专家” 分成多个小组，每个小组有自己专注的任务，从而提高了工作效率。MoMa 架构还引入了分层路由机制，这个机制允许模型在计算时跳过无关内容，确保每个内容都能找到最适合的 “专家”。为了在推理阶段保持输出的关联性，MoMa 还引入了辅助路由器，进一步优化了模型的复杂性与性能。

MoMa 架构的核心在于将 “专家” 分成多个小组，每个小组专注于特定类型的数据处理任务。比如，有的专家负责处理文本数据，而另一些则专门处理图像数据。这种分组策略的好处包括：

每个小组专注于自己擅长的任务，提高整体处理效率。
任务分配给最适合的专家组，避免不必要的资源浪费。

MoMa 架构中引入了分层路由机制，让模型在计算时可以选择性地跳过一些无关的内容。其工作原理如下：

根据输入数据的类型和内容，动态选择最适合的专家组进行处理。
模型在处理过程中可以跳过无关内容，从而减少不必要的计算。

为了确保每个标记的输出都保持关联，MoMa 架构中还引入了辅助路由器。它的主要功能包括：

确保每个标记都能找到最适合的专家进行处理。
在推理阶段，辅助路由器确保输出的标记保持关联，从而兼顾模型的复杂性与性能。

MoMa 架构在处理多模态数据（如图像和文本）方面表现如下：

在图像识别和分类任务中，MoMa 架构能够处理大量图像数据。
在自然语言处理任务中，MoMa 架构能够处理复杂的文本数据。

与标准的 MoE 模型相比，MoMa 模型在性能上有提升：

MoMa 模型实现了 3.7 倍的整体 FLOPs 节省，结合 MoD 技术后，节省效果提升至 4.2 倍。
在处理相同量的数据时，MoMa 模型的数据吞吐量减少了 17%，而标准 MoE 模型的吞吐量减少为 9%。

在实际应用中，MoMa 架构得到了用户的反馈：

用户反映，MoMa 架构在处理速度和准确性方面表现良好，提升了工作效率。
在多个实际应用场景中，MoMa 架构展现出了处理能力和稳定的性能。