微软发布 Phi 3.5 系列：击败 Llama 3.1，挑战 GPT4o！

微软刚刚发布了最新的小模型系列：Phi 3.5 mini、MoE 和 Vision，这些模型具有 128K 上下文窗口、支持多语言，并遵循 MIT 协议。

Phi-3.5 MoE：在基准测试中击败了 Llama 3.1 8B，在推理能力方面也优于其他一些较大的模型，仅落后于 GPT-4o-mini。Phi-3.5 MoE 是微软的 “专家组合”，拥有 6.6B 活动参数（总参数 42B），在 4.9T tokens 上进行训练，使用 512 张 H100 进行训练（23 天）。
Phi 3.5 mini：针对计算受限的环境进行了优化，拥有 3.8B 参数，击败 Llama 3.1 8B 和 Mistral 7B，在 3.4T tokens 上进行训练，使用 512 张 H100 进行训练（10 天）。
Phi-3.5 Vision Instruct：专注于多模态推理，拥有 4.2B 参数，在基准测试上击败 GPT4o，使用 500B tokens 进行训练，使用 256 张 A100 进行训练（6 天）。
在技术细节方面，Phi-3.5 系列模型采用了训练方法和硬件支持。Phi-3.5 MoE 在 4.9T tokens 上进行训练，使用了 512 张 H100 显卡，训练时间为 23 天。Phi 3.5 mini 在 3.4T tokens 上进行训练，使用了 512 张 H100 显卡，训练时间为 10 天。Phi-3.5 Vision Instruct 在 500B tokens 上进行训练，使用了 256 张 A100 显卡，训练时间为 6 天。这些模型的训练数据包括文本和图像数据，确保了模型在多种任务中的表现。

微软的新模型系列还采用了多种优化技术，以提高模型的性能和效率。例如，Phi-3.5 MoE 通过组合多个专家模型来提高推理的准确性和效率，Phi 3.5 mini 则通过优化计算资源来提供高效、低成本的 AI 解决方案。Phi-3.5 Vision Instruct 通过多模态训练方法，提高了模型在处理复杂任务时的表现。