苹果公司发布 7B 开源大模型

苹果公司最近发布了他们最新的 7B 开源大模型，并将整个训练过程和资源都开源了。

《自然》杂志编辑 Elizabeth Gibney 曾指出，很多所谓的开源 AI 模型在数据和训练方法上并不透明。苹果对此作出了回应，全面开源预训练数据集，展示了其在透明度和开放性方面的决心。

苹果的 7B 大模型采用了先进的架构和训练方法。这个模型拥有 7B 参数，使用了 PyTorch 和 OpenLM 框架进行训练。训练数据集为 DCLM-BASELINE，包含了 2.5T tokens，主要是英文数据。模型的上下文窗口为 2048 tokens，能够处理较长的文本输入。苹果开源了全部训练代码和数据集，确保了透明度。这种全面的开源方式为研究人员提供了宝贵的资源，助力 AI 领域的进一步发展。

苹果最新发布的 7B 开源大模型 DCLM-7B 在多个基准测试中表现良好，特别是在 MMLU 基准测试中，其 5-shot 准确率达到了 64%。这个成绩超过了 Mistral-7B，接近了 Llama 3 8B 和 Gemma 等开源模型。具体来看，DCLM-7B 在 53 个自然语言理解任务上的平均表现也与 Llama 3 8B 相当，但所需计算量仅是它的六分之一。这意味着 DCLM-7B 在常识推理等任务上表现良好，并且在计算效率上有显著优势。

苹果全面开源 7B 大模型的举动在 AI 社区得到了广泛关注。NLP 科学家和 AutoAWQ 创建者表示，苹果发布了一个超越 Mistral 7B 的模型，并完全开源了所有内容，包括预训练数据集。这被视为真正开源的典范，推动了开源社区的发展。

开源的意义在于提升透明度和推动 AI 研究和应用。通过开放训练过程和资源，研究人员和开发者可以更深入地理解和改进模型，从而加速 AI 技术的创新和应用。