苹果公司最近发布了他们最新的 7B 开源大模型,并将整个训练过程和资源都开源了。
《自然》杂志编辑 Elizabeth Gibney 曾指出,很多所谓的开源 AI 模型在数据和训练方法上并不透明。苹果对此作出了回应,全面开源预训练数据集,展示了其在透明度和开放性方面的决心。
苹果的 7B 大模型采用了先进的架构和训练方法。这个模型拥有 7B 参数,使用了 PyTorch 和 OpenLM 框架进行训练。训练数据集为 DCLM-BASELINE,包含了 2.5T tokens,主要是英文数据。模型的上下文窗口为 2048 tokens,能够处理较长的文本输入。苹果开源了全部训练代码和数据集,确保了透明度。这种全面的开源方式为研究人员提供了宝贵的资源,助力 AI 领域的进一步发展。
苹果最新发布的 7B 开源大模型 DCLM-7B 在多个基准测试中表现良好,特别是在 MMLU 基准测试中,其 5-shot 准确率达到了 64%。这个成绩超过了 Mistral-7B,接近了 Llama 3 8B 和 Gemma 等开源模型。具体来看,DCLM-7B 在 53 个自然语言理解任务上的平均表现也与 Llama 3 8B 相当,但所需计算量仅是它的六分之一。这意味着 DCLM-7B 在常识推理等任务上表现良好,并且在计算效率上有显著优势。
苹果全面开源 7B 大模型的举动在 AI 社区得到了广泛关注。NLP 科学家和 AutoAWQ 创建者表示,苹果发布了一个超越 Mistral 7B 的模型,并完全开源了所有内容,包括预训练数据集。这被视为真正开源的典范,推动了开源社区的发展。
开源的意义在于提升透明度和推动 AI 研究和应用。通过开放训练过程和资源,研究人员和开发者可以更深入地理解和改进模型,从而加速 AI 技术的创新和应用。