鸿海 700 亿参数大模型 4 周极速训成联手英伟达落地

2025 年 3 月 10 日，鸿海研究院发布基于 Meta Llama 3.1 架构的 FoxBrain 大语言模型。该模型参数规模达 700 亿，使用 120 张 NVIDIA H100 GPU 集群完成训练，总计算力消耗 2688 GPU 天，训练周期仅四周。NVIDIA Quantum-2 InfiniBand 网络和 Taipei-1 超级计算机为其提供硬件支持，多节点并行架构显著提升了计算资源利用率。

FoxBrain 在中文预训练阶段通过 24 类主题的数据增强方法生成 980 亿 token 高质量语料，其 128K token 上下文长度可处理约 18 万汉字内容。TMMLU + 测试数据显示，该模型在数学与逻辑推理领域超越同参数规模的 Llama-3-Taiwan-70B 模型。其核心突破在于 Adaptive Reasoning Reflection 技术，通过自主构建推理链实现多步骤问题求解，在代码生成任务中展现出显著性能提升。

训练团队采用三阶段优化策略：先进行 200 亿 token 的 Continual Pre-Training 保持基座能力，再通过监督微调提升指令跟随性能，最后运用 RLAIF 强化学习对齐人类偏好。模型显存占用优化效果显著，使得 120 卡集群可支持完整训练。

FoxBrain 将优先部署于鸿海科技集团三大业务线：智能制造平台用于设备故障预测，智能电动车部门测试显示该模型有效优化车载语音交互响应速度，智慧城市应用中成功实现市政报告结构化分析。鸿海研究院计划于 2025 年第三季度开放模型权重，配套发布包含 50 万条制造业专业指令的微调数据集。鸿海研究院院长栗永徽强调，该模型的多节点架构设计与 NVIDIA 的合作成效显著，在数学推理能力方面已达到行业先进水平。