IBM 于 2024 年 10 月 21 日在年度 TechXchange 活动上发布了 Granite 3.0 系列大语言模型,专为企业应用设计。
Granite 3.0 8B Instruct 模型经过超过 12 万亿个标记的多语言训练,涵盖 12 种语言和 116 种编程语言。在学术基准测试中,该模型的表现与 Meta 和 Mistral AI 的同类模型相媲美。通过 InstructLab 的微调选项,企业可以根据自身需求定制模型。所有 Granite 3.0 模型均以 Apache 2.0 许可证发布。
Granite 3.0 系列包括多种类型的模型:
- 通用语言模型如 Granite 3.0 8B Instruct 和 Granite 3.0 2B Instruct;- 安全护栏模型如 Granite Guardian 3.0 8B 和 Granite Guardian 3.0 2B;- 专家混合模型如 Granite 3.0 3B-A800M Instruct。
这些模型可用于多种企业应用场景,包括检索增强生成(RAG)、文本分类、文本摘要、实体提取、工具使用、代码生成和编辑、客户服务聊天机器人。
Granite 3.0 集成了安全功能,通过数据过滤减轻潜在风险,而 Granite Guardian 模型在多个维度上增强了输入和输出管理。
IBM 使用训练技术,如利用数据准备工具包进行数据处理与电源调度器优化学习率,使模型更快地收敛到最佳权重,同时最小化训练成本。Granite 3.0 在由可再生能源驱动的 Blue Vela 平台上训练。