Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

微软发布 Phi 3.5 系列:击败 Llama 3.1,挑战 GPT4o!

2024-08-21

微软刚刚发布了最新的小模型系列:Phi 3.5 mini、MoE 和 Vision,这些模型具有 128K 上下文窗口、支持多语言,并遵循 MIT 协议。

  • Phi-3.5 MoE:在基准测试中击败了 Llama 3.1 8B,在推理能力方面也优于其他一些较大的模型,仅落后于 GPT-4o-mini。Phi-3.5 MoE 是微软的 “专家组合”,拥有 6.6B 活动参数(总参数 42B),在 4.9T tokens 上进行训练,使用 512 张 H100 进行训练(23 天)。

  • Phi 3.5 mini:针对计算受限的环境进行了优化,拥有 3.8B 参数,击败 Llama 3.1 8B 和 Mistral 7B,在 3.4T tokens 上进行训练,使用 512 张 H100 进行训练(10 天)。

  • Phi-3.5 Vision Instruct:专注于多模态推理,拥有 4.2B 参数,在基准测试上击败 GPT4o,使用 500B tokens 进行训练,使用 256 张 A100 进行训练(6 天)。
    在技术细节方面,Phi-3.5 系列模型采用了训练方法和硬件支持。Phi-3.5 MoE 在 4.9T tokens 上进行训练,使用了 512 张 H100 显卡,训练时间为 23 天。Phi 3.5 mini 在 3.4T tokens 上进行训练,使用了 512 张 H100 显卡,训练时间为 10 天。Phi-3.5 Vision Instruct 在 500B tokens 上进行训练,使用了 256 张 A100 显卡,训练时间为 6 天。这些模型的训练数据包括文本和图像数据,确保了模型在多种任务中的表现。

微软的新模型系列还采用了多种优化技术,以提高模型的性能和效率。例如,Phi-3.5 MoE 通过组合多个专家模型来提高推理的准确性和效率,Phi 3.5 mini 则通过优化计算资源来提供高效、低成本的 AI 解决方案。Phi-3.5 Vision Instruct 通过多模态训练方法,提高了模型在处理复杂任务时的表现。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5