2024 年 8 月 19 日,抱抱脸(Hugging Face)发布了一款能够在浏览器中直接运行的小模型,引起了业界的广泛关注。这款小模型在 2 亿、5 亿和 20 亿参数级别上表现出色,展示了其性能和应用潜力。抱抱脸首席科学家 Thomas Wolf 在总结团队开发小模型的经验时,提出了两个关键秘诀:过滤数据和在高度过滤的数据集上训练。他还认为合成数据目前只在特定领域有用,网络的多样性和真实数据的潜力尚未完全发挥。这一观点引发了业界的讨论,尤其是在当前合成数据和真实数据之争的背景下。
抱抱脸的 360M 模型版本已经发布了 Demo,用户可以在线体验,通过浏览器调用本地 GPU 运行,整个过程仅需 400MB 内存。抱抱脸推出的这款小模型在参数规模上表现出色,其背后的技术细节和训练方法值得深入探讨。Thomas Wolf 提到的两个秘诀 —— 过滤数据和在高度过滤的数据集上训练,是这款小模型成功的关键。
- 数据过滤 :抱抱脸团队在数据过滤过程中,采用了多层次、多维度的筛选机制,确保数据的高质量和多样性。他们使用了 Llama3-70B-Struct 生成的标注,开发了一个分类器,仅保留 FineWeb 数据集中最具教育意义的网页。这种严格的数据过滤方法,提高了数据的质量,减少了噪音数据对模型训练的干扰。
- 高度过滤的数据集训练:在训练过程中,采用了数据退火(Anneal the data)技术,即在训练的最后一部分保留一组特殊的高质量数据。这种方法提升了模型的泛化能力和稳定性。此外,团队还发现,即使是小模型,也需要在数万亿 token 上进行长时间训练,才能达到最佳效果。
在性能表现方面,抱抱脸的小模型在多个基准测试中表现优异。例如,在 MMLU 测试中,尽管 MMLU 是博士水平的题目,但抱抱脸的小模型依然取得了不错的成绩。这表明,经过严格过滤和训练的小模型,具备了处理复杂任务的能力。
用户体验方面,抱抱脸的小模型在浏览器中运行,方便了用户的使用。用户只需通过浏览器调用本地 GPU,即可运行模型,整个过程仅需 400MB 内存。这种轻量化的设计,使得小模型可以在智能手机、笔记本电脑等多种设备上部署,拓展了其应用场景。
在抱抱脸推出小模型的同时,其他科技巨头也在小模型领域展开了竞争。英伟达和 Mistral AI 的合作,以及 OpenAI 的 GPT-4o mini,都是当前小模型领域的重要玩家。
- 英伟达和 Mistral AI:2024 年 7 月 22 日发布了 12B 参数的小模型 Mistral NeMo。这款模型由 Mistral AI 和英伟达联手打造,支持 128K 上下文,性能在多项基准测试中领先于 Gemma 2 9B 和 Llama 3 8B。Mistral NeMo 在 NVIDIA DGX Cloud AI 平台上完成训练,结合了 Mistral AI 在训练数据方面的专业知识和英伟达优化的硬件和软件生态系统。
- OpenAI:2024 年 7 月 19 日发布了 GPT-4o mini,这是一款被称为 “最具成本效益” 的小模型。GPT-4o mini 在多项基准测试中表现优于 GPT-3.5 Turbo 和同类小型模型。例如,在 MMLU 测试中,GPT-4o mini 得分 82%,高于 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。在编程能力测试 HumanEval 上,GPT-4o mini 以 87.2% 的得分超越了 GPT-4 的早期版本。OpenAI 官方宣称,GPT-4o mini 在 API 中支持文本和视觉,未来将支持文本、图像、视频和音频的输入和输出。
- 阿里云:2024 年 5 月 9 日发布了通义千问 2.5,这款中文大模型在多个基准测试中表现出色,超越了 Llama-3-70B,成为全球开源领域最强大模型。阿里云还发布了 1100 亿参数的开源模型 Qwen1.5-110B,在 MMLU、TheoremQA、GPQA 等基准测试中取得了最佳成绩。阿里云的开源策略,使得更多开发者能够使用和改进这些模型,推动了大模型技术的普及和应用。
在小模型领域的竞争中,各家公司不仅在技术上不断突破,还在商业模式和应用场景上进行探索。英伟达和 Mistral AI 的合作,展示了硬件和软件结合的优势;OpenAI 的 GPT-4o mini,通过降低成本和提高性能,吸引了更多用户;阿里云的开源策略,则为开发者提供了更多选择和灵活性。