Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Runway 发布 Gen-3 Alpha,90 秒生成 10 秒视频,视频创作新革命!

Runway 发布 Gen-3 Alpha,90 秒生成 10 秒视频,视频创作新革命!

2024-08-08

北京时间 6 月 17 日晚九点,Runway 发布了其最新的视频大模型 Gen-3 Alpha,这是 Runway 即将推出的一系列模型中的第一个。Runway 称,与 Gen-2 相比,Gen-3 Alpha 在保真度、一致性和运动方面有了改进,并且朝着构建 “通用世界模型” 的道路上迈出了重要一步。

Runway 成立于 2018 年,是一家 AI 视频编辑软件提供商。Runway 在文生图领域曾与 Stability AI 一起训练了 Stable Diffusion 模型。2023 年 2 月,Runway 提出了首个 AI 编辑模型 Gen-1,用户可以在原视频基础上进行编辑操作;随后发布的 Gen-2 在实现更高保真度和一致性的同时,增加了 Multi-Motion Brush 功能,允许用户在一张图像上选择多个区域,并对每个区域设置不同的运动速度参数;同时,Gen-2 还可以无需原视频基础,从头生成视频。

本次发布的 Gen-3 Alpha 模型使用视频和图像联合训练,其特色包括:

  • 90 秒内快速生成 10 秒视频
  • 并行生成多个视频
  • 模型驱动新的文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)
  • 动作笔刷、高级摄像机控制、导演模式
  • 即将推出用于精细控制结构、风格、动作的工具

Runway CTO Anastasis Germanidis 表示,在多模态模型中,“控制”(即可控性)是关键,视频扩散模型(Video Diffusion Models)还远远未达到通过 Scaling 带来的性能提升;并且这些模型在学习预测视频的任务时,构建了视觉世界的表征,因此对于这些表征的把握至关重要。Anastasis Germanidis 透露了 Gen-3 Alpha 的发布时间点:将在 “几天内” 首先向付费 Runway 用户提供,但免费版本也将在未来某个时间点向所有用户开放。

Gen-3 Alpha 接受了高度描述性、时间密集的说明文字的训练,因此能够实现富有想象力的过渡,和更为精确的场景元素关键帧,在动作跟随和时间控制上表现得更加精准:

  • Prompt: An extreme close-up shot of an ant emerging from its nest. The camera pulls back revealing a neighborhood beyond the hill.
  • Prompt: Handheld camera moving fast, flashlight light, in a white old wall in a old alley at night a black graffiti that spells ‘Runway’.
  • Prompt: An astronaut running through an alley in Rio de Janeiro.

此次发布的 Gen-3 Alpha 擅长创造具有多种动作、手势和情感的人类角色,给了视频创作者更好的 “讲故事” 的可能性:

  • Prompt: Subtle reflections of a woman on the window of a train moving at hyper-speed in a Japanese city.
  • Prompt: An older man playing piano, lit from the side.

Gen-3 Alpha 拥有一支 “跨学科” 的训练团队 —— 它由研究科学家、工程师和艺术家组成;同时,不同于其他多模态大模型在特定基础上训练而成,Gen-3 Alpha 是从零开始训练的,这就使其突破了原有视频范式的束缚,带来了一定的创造力。也因此,Gen-3 Alpha 能更好地诠释各种艺术风格和电影术语。

  • Prompt: A man made of rocks walking in the forest, full-body shot.
  • Prompt: An ultra-wide shot of a giant stone hand reaching out of a pile of rocks at the base of a mountain.
  • Prompt: Aerial view shot of a cloaked figure elevating in the sky between skyscrapers.

此外,Runway 还在官网中表示,作为 Gen-3 系列模型的一部分,他们一直与领先的娱乐和媒体组织合作并建立伙伴关系,为他们提供 Gen-3 Alpha 的定制版本。Gen-3 系列模型的定制版允许用户生成更加风格化、与现实更加一致的内容,并且可以针对特定的艺术和叙事要求进行编辑。同时,Runway 团队还将为 Gen-3 Alpha 发布一套新的保护措施,包括全新的内部视觉审核系统和 C2PA(Coalition for Content Provenance and Authenticity,是一套新的技术标准和开源代码,可以标注内容来源)出处标准,以确保 Gen-3 Alpha 生成内容版权的有效性。

在实际应用中,Gen-3 Alpha 的图生视频功能也展现出了潜力。用户可以通过上传图片并添加文本提示,生成各种风格和类型的视频。例如,一位用户上传了一张风景图片,并使用提示词 “在一片森林中,人视,参天大树遮蔽着太阳,树叶的缝隙中洒下一些阳光,丁达尔效应” 生成了一个森林视频。另一位用户上传了一张动物图片,并使用提示词 “一只水豚鼠像人一样站立着,手里拿着冰激凌,开心得吃起来” 生成了一个动物视频。

Runway 联合创始人兼 CEO Cristóbal Valenzuela 在社交媒体上表示,这一功能的推出将为视频生成领域带来新的变化。他还分享了一些图生视频示例,展示了 Gen-3 Alpha 在图像到视频生成方面的能力。用户可以通过简单的文本提示和静态图像创建出视频。例如,X 用户 @NoBanksNearby 上传了一张图片,并生成了一个视频,展示了 Gen-3 Alpha 的功能。X 用户 @blizaine 测试了一张 Midjourney 生成的小罗伯特・唐尼即将扮演的毁灭博士,使用到的 Prompt 为 “当男人走向相机时跟踪拍摄,背景中有神奇的电气爆炸。” 生成的视频效果展示了模型的能力。X 用户 @patrickassale 生成的视频展示了 Gen-3 Alpha 在处理复杂场景和动态效果方面的能力。用户上传了一张图片,并使用提示词生成了一个视频,展示了 Gen-3 Alpha 在图像到视频生成方面的功能。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5