2025 年 3 月 10 日,鸿海研究院发布基于 Meta Llama 3.1 架构的 FoxBrain 大语言模型。该模型参数规模达 700 亿,使用 120 张 NVIDIA H100 GPU 集群完成训练,总计算力消耗 2688 GPU 天,训练周期仅四周。NVIDIA Quantum-2 InfiniBand 网络和 Taipei-1 超级计算机为其提供硬件支持,多节点并行架构显著提升了计算资源利用率。
FoxBrain 在中文预训练阶段通过 24 类主题的数据增强方法生成 980 亿 token 高质量语料,其 128K token 上下文长度可处理约 18 万汉字内容。TMMLU + 测试数据显示,该模型在数学与逻辑推理领域超越同参数规模的 Llama-3-Taiwan-70B 模型。其核心突破在于 Adaptive Reasoning Reflection 技术,通过自主构建推理链实现多步骤问题求解,在代码生成任务中展现出显著性能提升。
训练团队采用三阶段优化策略:先进行 200 亿 token 的 Continual Pre-Training 保持基座能力,再通过监督微调提升指令跟随性能,最后运用 RLAIF 强化学习对齐人类偏好。模型显存占用优化效果显著,使得 120 卡集群可支持完整训练。
FoxBrain 将优先部署于鸿海科技集团三大业务线:智能制造平台用于设备故障预测,智能电动车部门测试显示该模型有效优化车载语音交互响应速度,智慧城市应用中成功实现市政报告结构化分析。鸿海研究院计划于 2025 年第三季度开放模型权重,配套发布包含 50 万条制造业专业指令的微调数据集。鸿海研究院院长栗永徽强调,该模型的多节点架构设计与 NVIDIA 的合作成效显著,在数学推理能力方面已达到行业先进水平。