字节跳动即将于 7 月 19 日在新加坡举办一场名为 “ByteDance AI Luminary Talks” 的 AI 技术菁英论坛。这次论坛将聚焦 “世界模型探索:视频和 3D 生成与理解模型” 这一主题。现场将汇集字节跳动豆包大模型视觉基础研究团队,以及来自南洋理工大学和新加坡国立大学的研究科学家,共同探讨这些领域的最新技术进展。活动将展示字节跳动在长视频和高动态视频生成方面的技术,并安排了中文同声传译和多平台同步直播。
世界模型是一种通过预测未来来理解数字世界和物理世界的技术,被认为是实现通用人工智能(AGI)的重要途径之一。论坛将讨论如何利用视频和 3D 生成技术,研究和应用世界模型。参会者包括来自字节跳动豆包大模型视觉基础研究团队、南洋理工大学和新加坡国立大学的科学家。他们会分享最新的研究成果和技术进展,讨论世界模型在视频和 3D 生成与理解中的应用。
论坛的日程安排如下:
- 4:00-4:10 PM 欢迎致辞:字节跳动豆包大模型视觉基础研究团队负责人冯佳时将致辞,介绍论坛的背景。
- 4:10-4:30 PM 多模态生成式 AI 与基础模型:南洋理工大学计算与数据科学学院助理教授刘子纬将讲解多模态生成式 AI 的基础模型,探讨其在现实世界应用中的效果和适应性。
- 5:30-6:40 PM 晚餐 & 交流:与会者将在晚餐环境中进行交流,分享各自的研究心得和见解,促进跨领域合作。
- 6:40-7:10 PM 多模态视频理解与生成:新加坡国立大学助理教授寿政(Mike Shou Zheng)将介绍多模态视频理解与生成技术,分享他在长视频生成方面的研究成果。
- 7:10-7:40 PM 连续高动态的长视频生成方案:字节跳动研究科学家周大权将围绕 “连续高动态的长视频生成方案” 展开演讲,探讨如何通过数据集生成、视频生成模型算法设计以及计算开销来实现高质量的长视频生成。
刘子纬教授的演讲将讲解如何通过 AI 驱动的人类、物体和场景的视觉上下文生成,结合神经渲染与大型多模态基础模型,实现视觉内容生成。寿政教授的演讲将介绍多智能体系统 AssistGUI,这套系统通过学习教学视频,可以在桌面上自动完成复杂的图形用户界面(GUI)任务。此外,寿教授还将分享他们在长视频生成方面的最新研究成果 ——MagicAnimate。字节跳动研究科学家周大权的演讲将重点探讨生成真实、连续、大幅度长视频的挑战和解决方案。他将从数据集生成、视频生成模型算法设计以及计算开销三个角度,讲述如何设计高效的长视频生成方案。
字节跳动在 AI 大模型领域的最新技术进展备受关注。在这次论坛上,字节跳动团队将首次大范围公布文生图、类 Sora 新视频等 AI 模型技术,特别是在长视频和高动态方向上的技术。这些技术在生成效果上对标 Sora,并展示了在实际应用中的潜力。