随着生成式 AI 技术的发展,上海科技大学 MARS 实验室孵化的影眸科技在 SIGGRAPH 2024 大会上发布了 3D 原生生成大模型 Rodin Gen-1。这项技术能快速将文本和图片生成 3D 模型,展示了生成式 AI 领域的最新进展。本文将探讨 Rodin Gen-1 的技术背景、核心功能和应用场景。
Rodin Gen-1 采用了 Diffusion Transformer(DiT)架构,参数量超过 1.5 亿,能够在数秒内生成 3D 模型。它支持从文本和图片生成 3D 模型,旨在成为生产就绪的通用 3D 生成大模型。
Rodin Gen-1 的 3D-to-3D 功能允许用户从基本形状出发,通过文字提示生成全新的 3D 物体。同时,它还能生成物理基础渲染(PBR)材质,使得 3D 模型具备质感和光影效果。
Rodin Gen-1 还支持 3D LoRA 技术,这项技术允许使用极少量的数据生成特定类型或风格的 3D 资产。通过结合 3D ControlNet 和 3D LoRA,Rodin Gen-1 展示了在控制和风格多样性方面的能力。
Rodin Gen-1 能够在数秒内生成带规整四边面片与 PBR 材质的 3D 资产,其生成速度和质量接近生产就绪的水平。
Rodin Gen-1 在多个领域展现了其应用潜力:
- 游戏开发:Rodin Gen-1 能生成 3D 模型,缩短开发周期。开发者只需输入文本或图片,就能生成游戏场景和角色模型。
- 影视制作:在影视制作领域,Rodin Gen-1 能帮助制作团队创建 3D 特效和场景,省去传统手工建模的时间和成本。
- 虚拟现实(VR)和增强现实(AR):Rodin Gen-1 在 VR 和 AR 应用中也能生成虚拟场景,适用于教育、培训、娱乐等多个领域。
Rodin Gen-1 在 SIGGRAPH 2024 上的亮相,体现了上海在大模型技术和应用方面的地位。