Luma AI 于 2024 年 9 月 18 日宣布推出 Dream Machine API,这一新工具使开发者能够将 AI 视频生成能力无缝集成到自己的产品中。用户无需掌握复杂的提示工程,只需通过简单的文本指令即可生成视频。Dream Machine API 提供了一个直观的系统来创建和编辑视频,用户无需在应用中构建复杂的工具,也不需要切换到其他视频编辑器。
Dream Machine API 基于高度可扩展且高效的 Transformer 模型,直接在视频数据上进行训练,使其能够生成物理上准确、一致且多变的镜头。以下是 Dream Machine API 的一些功能:
- 快速生成:Dream Machine 只需 120 秒便可生成 120 帧画面。- 逼真且一致的动作:建模确保视频高度逼真且无缝一致。- 高度角色一致性:系统在模拟真实世界物理特征的同时保持角色的完整性。- 自然的镜头运动:Dream Machine 支持一系列流畅、电影化和自然的摄像机运动。
与其他竞争产品相比,Dream Machine API 具有一些优势。OpenAI 的 Sora 虽然功能强大,但仍处于封闭测试阶段,且仅限于少数合作伙伴使用。相比之下,Luma AI 已经广泛开放了 Dream Machine 的使用权限,用户数量迅速增长。根据 similarweb 的统计,Luma AI 的视频生成器网站(lumalabs.ai)在 2024 年 6-7 月份的流量增长了 33.4%,总流量达到 2250 万次,而一些竞争对手的流量在同期则只有 1210 万(veed.io)和 240 万(synthesia.io)。
用户和开发者对 Dream Machine API 的反馈也非常积极。早期的 Beta 测试人员对 Dream Machine 的渲染能力表示认可,认为它可以渲染特定的物体、角色、动作和环境,讲述连贯的故事,并保持流畅的动作。然而,该系统也存在一些挑战。一些用户报告了 Dream Machine 在生成视频的准确率方面的问题,特别是在描述提示不明确时。
Luma AI 成立于 2021 年,专注于 3D 内容生成和重建技术。公司由曾在 Apple AR/VR 部门工作的联创兼 CEO Amit Jain 和加州大学伯克利分校毕业的联创兼 CTO Alex Yu 共同创立。Amit Jain 在苹果公司期间负责 Vision Pro 的多媒体体验,拥有丰富的 3D 计算机视觉、相机技术和机器学习的实践经验。Alex Yu 则曾在 Adobe 公司工作,并在伯克利的人工智能研究实验室与 Angjoo Kanazawa 教授共同研究神经辐射场(NeRFs),在 CVPR 和 ICCV 等顶级 AI 会议上发表过多篇论文。
今年 1 月,Luma AI 完成了由 a16z 独家投资的 4300 万美元 B 轮融资,Matrix、英伟达及多位个人投资者也参与其中,使得其累积融资额达到了 7000 万美元。这笔资金为 Luma AI 提供了更多资源,以提升计算能力、数据处理能力和团队实力,从而训练出更优秀的视觉模型。
Luma AI 的战略是通过不断改进其 AI 模型,保持在视频生成领域的地位。Dream Machine 的推出是公司在这一领域的一步。Luma AI 计划继续优化其模型,增加更多功能,如多语言支持、更高的分辨率和更复杂的场景生成能力。此外,公司还计划发布流行创意软件的 API 和插件,进一步扩大 Dream Machine 的可访问性。
Luma AI 的领导团队也在不断壮大。B 轮融资后,公司引入了多位人才,包括来自 NVIDIA 的 Jiaming Song 担任首席科学家,领导基础模型研究团队,以及来自伯克利的 Matthew Tancik 领导应用研究团队。