清华大学与生数科技发布 Vidu 模型，视频生成速度仅需 30 秒！

2024 年 4 月 27 日，清华大学和生数科技在中关村论坛上联合发布了全新的 Vidu 模型。这款视频生成大模型采用了 U-ViT 架构，结合了 Diffusion 和 Transformer 技术，能够生成长达 16 秒的 1080P 高清视频。经过几个月的优化和测试，Vidu 于 2024 年 7 月 30 日正式全球上线，开放了文生视频和图生视频两大核心功能。Vidu 在生成速度上表现出色，生成一段 4 秒视频仅需 30 秒。

在技术优势方面，Vidu 模型支持多镜头切换，能在一段视频中实现远景、近景、中景和特写的切换，增强了视频的叙事效果。同时，Vidu 在视频生成中保持了时间和空间的一致性，保证了视频画面的连贯和流畅。比如，在生成一段 “带珍珠耳环的猫” 的视频时，猫在 3D 空间中的表情和服饰始终一致，整体视频非常连贯。

Vidu 还能模拟真实物理世界的运动和相互作用。比如，在生成一段 “老式 SUV 行驶在山坡上” 的视频时，Vidu 能够模拟轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化，效果接近真实世界。而且，Vidu 具备丰富的想象力，能够生成超现实主义的画面。比如，在一个画室场景中，Vidu 能生成 “帆船” 和 “海浪” 出现在画室里的画面，动态自然且充满创意。

Vidu 模型能通过文本生成高质量的视频，适合广告、影视等行业。用户只需输入简单的文字描述，Vidu 便能生成相应的视频片段。比如，广告公司可以迅速制作产品宣传片，影视制作团队可以用它来生成预告片或短片。这种功能缩短了视频制作的时间和成本。

Vidu 还支持从图像生成视频，尤其在角色一致性和动漫风格方面表现出色。用户只需上传一张图片，Vidu 就能根据图片中的角色生成连续的视频片段。这个功能在动画制作和角色设计中非常实用。比如，动画师可以通过上传角色设计图，生成角色的动态表现；游戏开发者也可以用它来制作角色动画，省去了大量的手工绘制时间。

Vidu 的用户体验设计非常友好。用户只需简单注册即可使用，无需排队，每月还提供免费积分。这种便捷的使用方式降低了用户的使用门槛。

用户对 Vidu 的反馈相当积极。Vidu 生成视频的速度极快，能够在 30 秒内生成一个 4 秒的视频片段。生成的视频不仅动作流畅，画面美观性也很高。

在竞争对手方面，Vidu 与其他视频生成模型如 Sora、Veo 相比有明显优势。Sora 虽然在视频生成领域有一定的影响力，但 Vidu 在生成速度和画面美观性上不逊色。此外，Vidu 还支持多镜头切换和高动态性。

作为中国首个长时长、高一致性、高动态性的视频大模型，Vidu 在国内外市场上都有着重要的影响力。它不仅填补了国内在这一领域的空白，还在全球范围内树立了新的技术标杆。