Runway 发布 Gen-3 Alpha，90 秒生成 10 秒视频，视频创作新革命！

北京时间 6 月 17 日晚九点，Runway 发布了其最新的视频大模型 Gen-3 Alpha，这是 Runway 即将推出的一系列模型中的第一个。Runway 称，与 Gen-2 相比，Gen-3 Alpha 在保真度、一致性和运动方面有了改进，并且朝着构建 “通用世界模型” 的道路上迈出了重要一步。

Runway 成立于 2018 年，是一家 AI 视频编辑软件提供商。Runway 在文生图领域曾与 Stability AI 一起训练了 Stable Diffusion 模型。2023 年 2 月，Runway 提出了首个 AI 编辑模型 Gen-1，用户可以在原视频基础上进行编辑操作；随后发布的 Gen-2 在实现更高保真度和一致性的同时，增加了 Multi-Motion Brush 功能，允许用户在一张图像上选择多个区域，并对每个区域设置不同的运动速度参数；同时，Gen-2 还可以无需原视频基础，从头生成视频。

本次发布的 Gen-3 Alpha 模型使用视频和图像联合训练，其特色包括：

90 秒内快速生成 10 秒视频
并行生成多个视频
模型驱动新的文本到视频（T2V）、图像到视频（I2V）和文本到图像（T2I）
动作笔刷、高级摄像机控制、导演模式
即将推出用于精细控制结构、风格、动作的工具

Runway CTO Anastasis Germanidis 表示，在多模态模型中，“控制”（即可控性）是关键，视频扩散模型（Video Diffusion Models）还远远未达到通过 Scaling 带来的性能提升；并且这些模型在学习预测视频的任务时，构建了视觉世界的表征，因此对于这些表征的把握至关重要。Anastasis Germanidis 透露了 Gen-3 Alpha 的发布时间点：将在 “几天内” 首先向付费 Runway 用户提供，但免费版本也将在未来某个时间点向所有用户开放。

Gen-3 Alpha 接受了高度描述性、时间密集的说明文字的训练，因此能够实现富有想象力的过渡，和更为精确的场景元素关键帧，在动作跟随和时间控制上表现得更加精准：

Prompt: An extreme close-up shot of an ant emerging from its nest. The camera pulls back revealing a neighborhood beyond the hill.
Prompt: Handheld camera moving fast, flashlight light, in a white old wall in a old alley at night a black graffiti that spells ‘Runway’.
Prompt: An astronaut running through an alley in Rio de Janeiro.

此次发布的 Gen-3 Alpha 擅长创造具有多种动作、手势和情感的人类角色，给了视频创作者更好的 “讲故事” 的可能性：

Prompt: Subtle reflections of a woman on the window of a train moving at hyper-speed in a Japanese city.
Prompt: An older man playing piano, lit from the side.

Gen-3 Alpha 拥有一支 “跨学科” 的训练团队 —— 它由研究科学家、工程师和艺术家组成；同时，不同于其他多模态大模型在特定基础上训练而成，Gen-3 Alpha 是从零开始训练的，这就使其突破了原有视频范式的束缚，带来了一定的创造力。也因此，Gen-3 Alpha 能更好地诠释各种艺术风格和电影术语。

Prompt: A man made of rocks walking in the forest, full-body shot.
Prompt: An ultra-wide shot of a giant stone hand reaching out of a pile of rocks at the base of a mountain.
Prompt: Aerial view shot of a cloaked figure elevating in the sky between skyscrapers.

此外，Runway 还在官网中表示，作为 Gen-3 系列模型的一部分，他们一直与领先的娱乐和媒体组织合作并建立伙伴关系，为他们提供 Gen-3 Alpha 的定制版本。Gen-3 系列模型的定制版允许用户生成更加风格化、与现实更加一致的内容，并且可以针对特定的艺术和叙事要求进行编辑。同时，Runway 团队还将为 Gen-3 Alpha 发布一套新的保护措施，包括全新的内部视觉审核系统和 C2PA（Coalition for Content Provenance and Authenticity，是一套新的技术标准和开源代码，可以标注内容来源）出处标准，以确保 Gen-3 Alpha 生成内容版权的有效性。

在实际应用中，Gen-3 Alpha 的图生视频功能也展现出了潜力。用户可以通过上传图片并添加文本提示，生成各种风格和类型的视频。例如，一位用户上传了一张风景图片，并使用提示词 “在一片森林中，人视，参天大树遮蔽着太阳，树叶的缝隙中洒下一些阳光，丁达尔效应” 生成了一个森林视频。另一位用户上传了一张动物图片，并使用提示词 “一只水豚鼠像人一样站立着，手里拿着冰激凌，开心得吃起来” 生成了一个动物视频。

Runway 联合创始人兼 CEO Cristóbal Valenzuela 在社交媒体上表示，这一功能的推出将为视频生成领域带来新的变化。他还分享了一些图生视频示例，展示了 Gen-3 Alpha 在图像到视频生成方面的能力。用户可以通过简单的文本提示和静态图像创建出视频。例如，X 用户 @NoBanksNearby 上传了一张图片，并生成了一个视频，展示了 Gen-3 Alpha 的功能。X 用户 @blizaine 测试了一张 Midjourney 生成的小罗伯特・唐尼即将扮演的毁灭博士，使用到的 Prompt 为 “当男人走向相机时跟踪拍摄，背景中有神奇的电气爆炸。” 生成的视频效果展示了模型的能力。X 用户 @patrickassale 生成的视频展示了 Gen-3 Alpha 在处理复杂场景和动态效果方面的能力。用户上传了一张图片，并使用提示词生成了一个视频，展示了 Gen-3 Alpha 在图像到视频生成方面的功能。