字节跳动发布多款新模型，豆包大模型日均使用量超 1.3 万亿

字节跳动今日发布了一系列新模型，包括音乐模型、同声传译模型、文生图 2.0 模型、新的基于 DiT 的视频生成模型 S2.0、豆包通用模型 pro 和语音合成模型。这些功能将全部集成到最新版的豆包、即梦 AI 和剪映中。

截至 9 月，豆包大模型的日均 Tokens 使用量已超过 1.3 万亿，4 个月内增长超过 10 倍。在多模态方面，豆包・文生图模型日均生成图片 5000 万张，豆包日均处理语音 85 万小时。

豆包视频生成模型是此次发布的亮点之一。该模型基于 DiT 融合计算单元、扩散模型训练方法和优化的 Transformer 结构，能够实现压缩编码视频与文本，支持一致性多镜头生成，提升视频生成的泛化能力。豆包视频生成模型能够遵从复杂的 Prompt，解锁时序性多拍动作指令与多个主体间的交互能力。在实际应用中，豆包视频生成模型展示了其语义理解能力和多主体运动的复杂交互画面。用户在体验过程中发现，该模型生成的视频能够遵循复杂指令，让不同人物完成多个动作指令的互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致。

火山引擎总裁谭待表示，豆包视频生成大模型支持多风格多比例的一致性多镜头生成，可应用在电商营销、动画教育、城市文旅、微剧本等领域。

除了视频生成模型，字节跳动还发布了其他多款新模型。豆包音乐模型能够生成高质量的音乐作品，适用于各种音乐创作场景。豆包同声传译模型则能够实现实时的语音翻译，提升跨语言交流的效率。文生图 2.0 模型在原有基础上进行了升级，具备更精准的中英文长文本理解能力，能够生成图文一致的图片。豆包通用模型 pro 是此次发布的另一大亮点。该模型支持 128k 长文本，适配问答、总结、创作、分类等丰富场景。豆包语音合成模型在升级后实现了智能识别文本情绪并对语速、语调动态调整。

此外，豆包还推出了图像转视频口型同步模型和文本、音频驱动的数字人模型，这些模型将进一步丰富豆包的多模态能力。豆包模型家族的升级不仅提升了各个模型的性能，还扩展了其应用场景。例如，豆包・文生图模型在长文本理解和图文匹配方面表现出色，能够生成具有中国特色元素的图片。豆包・语音识别模型则通过上下文感知，提升了语音识别的准确性。豆包・图生图模型基于文生图模型打造，能够实现还原人物特征，支持 50 多种风格场景的转换，并提供多种延展编辑。