2024 年 4 月 27 日,清华大学和生数科技在中关村论坛上联合发布了全新的 Vidu 模型。这款视频生成大模型采用了 U-ViT 架构,结合了 Diffusion 和 Transformer 技术,能够生成长达 16 秒的 1080P 高清视频。经过几个月的优化和测试,Vidu 于 2024 年 7 月 30 日正式全球上线,开放了文生视频和图生视频两大核心功能。Vidu 在生成速度上表现出色,生成一段 4 秒视频仅需 30 秒。
在技术优势方面,Vidu 模型支持多镜头切换,能在一段视频中实现远景、近景、中景和特写的切换,增强了视频的叙事效果。同时,Vidu 在视频生成中保持了时间和空间的一致性,保证了视频画面的连贯和流畅。比如,在生成一段 “带珍珠耳环的猫” 的视频时,猫在 3D 空间中的表情和服饰始终一致,整体视频非常连贯。
Vidu 还能模拟真实物理世界的运动和相互作用。比如,在生成一段 “老式 SUV 行驶在山坡上” 的视频时,Vidu 能够模拟轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化,效果接近真实世界。而且,Vidu 具备丰富的想象力,能够生成超现实主义的画面。比如,在一个画室场景中,Vidu 能生成 “帆船” 和 “海浪” 出现在画室里的画面,动态自然且充满创意。
Vidu 模型能通过文本生成高质量的视频,适合广告、影视等行业。用户只需输入简单的文字描述,Vidu 便能生成相应的视频片段。比如,广告公司可以迅速制作产品宣传片,影视制作团队可以用它来生成预告片或短片。这种功能缩短了视频制作的时间和成本。
Vidu 还支持从图像生成视频,尤其在角色一致性和动漫风格方面表现出色。用户只需上传一张图片,Vidu 就能根据图片中的角色生成连续的视频片段。这个功能在动画制作和角色设计中非常实用。比如,动画师可以通过上传角色设计图,生成角色的动态表现;游戏开发者也可以用它来制作角色动画,省去了大量的手工绘制时间。
Vidu 的用户体验设计非常友好。用户只需简单注册即可使用,无需排队,每月还提供免费积分。这种便捷的使用方式降低了用户的使用门槛。
用户对 Vidu 的反馈相当积极。Vidu 生成视频的速度极快,能够在 30 秒内生成一个 4 秒的视频片段。生成的视频不仅动作流畅,画面美观性也很高。
在竞争对手方面,Vidu 与其他视频生成模型如 Sora、Veo 相比有明显优势。Sora 虽然在视频生成领域有一定的影响力,但 Vidu 在生成速度和画面美观性上不逊色。此外,Vidu 还支持多镜头切换和高动态性。
作为中国首个长时长、高一致性、高动态性的视频大模型,Vidu 在国内外市场上都有着重要的影响力。它不仅填补了国内在这一领域的空白,还在全球范围内树立了新的技术标杆。