Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

鸿海 700 亿参数大模型 4 周极速训成 联手英伟达落地

2025-03-10

2025 年 3 月 10 日,鸿海研究院发布基于 Meta Llama 3.1 架构的 FoxBrain 大语言模型。该模型参数规模达 700 亿,使用 120 张 NVIDIA H100 GPU 集群完成训练,总计算力消耗 2688 GPU 天,训练周期仅四周。NVIDIA Quantum-2 InfiniBand 网络和 Taipei-1 超级计算机为其提供硬件支持,多节点并行架构显著提升了计算资源利用率。

FoxBrain 在中文预训练阶段通过 24 类主题的数据增强方法生成 980 亿 token 高质量语料,其 128K token 上下文长度可处理约 18 万汉字内容。TMMLU + 测试数据显示,该模型在数学与逻辑推理领域超越同参数规模的 Llama-3-Taiwan-70B 模型。其核心突破在于 Adaptive Reasoning Reflection 技术,通过自主构建推理链实现多步骤问题求解,在代码生成任务中展现出显著性能提升。

训练团队采用三阶段优化策略:先进行 200 亿 token 的 Continual Pre-Training 保持基座能力,再通过监督微调提升指令跟随性能,最后运用 RLAIF 强化学习对齐人类偏好。模型显存占用优化效果显著,使得 120 卡集群可支持完整训练。

FoxBrain 将优先部署于鸿海科技集团三大业务线:智能制造平台用于设备故障预测,智能电动车部门测试显示该模型有效优化车载语音交互响应速度,智慧城市应用中成功实现市政报告结构化分析。鸿海研究院计划于 2025 年第三季度开放模型权重,配套发布包含 50 万条制造业专业指令的微调数据集。鸿海研究院院长栗永徽强调,该模型的多节点架构设计与 NVIDIA 的合作成效显著,在数学推理能力方面已达到行业先进水平。

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5