微软刚刚发布了最新的小模型系列:Phi 3.5 mini、MoE 和 Vision,这些模型具有 128K 上下文窗口、支持多语言,并遵循 MIT 协议。
-
Phi-3.5 MoE:在基准测试中击败了 Llama 3.1 8B,在推理能力方面也优于其他一些较大的模型,仅落后于 GPT-4o-mini。Phi-3.5 MoE 是微软的 “专家组合”,拥有 6.6B 活动参数(总参数 42B),在 4.9T tokens 上进行训练,使用 512 张 H100 进行训练(23 天)。
-
Phi 3.5 mini:针对计算受限的环境进行了优化,拥有 3.8B 参数,击败 Llama 3.1 8B 和 Mistral 7B,在 3.4T tokens 上进行训练,使用 512 张 H100 进行训练(10 天)。
-
Phi-3.5 Vision Instruct:专注于多模态推理,拥有 4.2B 参数,在基准测试上击败 GPT4o,使用 500B tokens 进行训练,使用 256 张 A100 进行训练(6 天)。
在技术细节方面,Phi-3.5 系列模型采用了训练方法和硬件支持。Phi-3.5 MoE 在 4.9T tokens 上进行训练,使用了 512 张 H100 显卡,训练时间为 23 天。Phi 3.5 mini 在 3.4T tokens 上进行训练,使用了 512 张 H100 显卡,训练时间为 10 天。Phi-3.5 Vision Instruct 在 500B tokens 上进行训练,使用了 256 张 A100 显卡,训练时间为 6 天。这些模型的训练数据包括文本和图像数据,确保了模型在多种任务中的表现。
微软的新模型系列还采用了多种优化技术,以提高模型的性能和效率。例如,Phi-3.5 MoE 通过组合多个专家模型来提高推理的准确性和效率,Phi 3.5 mini 则通过优化计算资源来提供高效、低成本的 AI 解决方案。Phi-3.5 Vision Instruct 通过多模态训练方法,提高了模型在处理复杂任务时的表现。

