Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

艾伦人工智能研究所发布首个开源 MoE 模型 OLMoE,训练速度提升两倍

2024-09-05

2024 年 9 月 5 日,艾伦人工智能研究所(AI2)发布了首个完全开源的 Mixture-of-Experts(MoE)大语言模型 OLMoE。该模型拥有 10 亿活跃参数和 70 亿总参数,训练数据量达到 5 万亿个标记。AI2 提供了模型、数据、代码和日志的全面访问权限,并进行了大量分析和实验。

OLMoE 是一个稀疏的 MoE 模型,具有 10 亿活跃参数和 70 亿总参数。它在 5 万亿个标记上进行了训练,基于新的数据混合,结合了 AI2 的 Dolma 的经验,并大量依赖 DataComp-Baseline。为了优化模型性能,AI2 对许多关键的 MoE 细节进行了广泛的实验,包括路由算法、辅助损失函数和稀疏回收。

与传统的密集模型相比,OLMoE 的训练速度提高了两倍,同时在推理成本上也显著降低。AI2 的研究团队还引入了新的 Tulu 3 后训练配方,进一步提升了模型在数学、代码和指令跟随方面的表现。

AI2 还发布了 OLMoE 的多个变体和检查点,以支持不同方向的语言模型研究。这些变体包括 244 个预训练模型检查点,每 5000 步一个,以及经过微调的版本。

由于其稀疏架构,OLMoE 适合低延迟、设备端和边缘部署使用场景。例如,它可以在最新的 iPhone 等常见边缘设备上运行,并在 MMLU 性能上与更大模型相比取得相似或更好的表现。

与其他开源和部分开源模型相比,OLMoE 在许多生成和阅读理解任务上表现良好。AI2 对比了 EleutherAI 的 Pythia Suite、MosaicML 的 MPT 模型、TII 的 Falcon 模型和 Meta 的 Llama 系列,发现 OLMoE 在许多任务上具有竞争力,尽管在某些问答任务上略有落后。

了解更多:OLMoE 发布详情

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5