本次访谈由知名科技播客《No Priors》主持,访谈对象是刚获 6000 万美元 A 轮融资的 HeyGen 的联合创始人兼 CEO 徐卓(Joshua Xu)。访谈围绕 HeyGen 的创办背景、技术应用及未来发展展开,讨论了人工智能在视频生成领域的创新和挑战。
HeyGen 是一家专注于用 AI 技术生成视频的公司,用户只需输入脚本,即可在几分钟内生成用于营销、沟通、销售、学习等的视频。HeyGen 还支持使用 AI 语音和口型同步为视频添加 175 种语言和地方方言,提供更加沉浸的体验。
和 Runway 和 Pika 这样的公司不同,HeyGen 专注于帮助企业开展营销、培训和操作视频等工作。 在短短一年多的时间里,HeyGen 的年度经常性收入(ARR)从 100 万美元增长到超过 3500 万美元,并且自第二季度以来一直盈利。去年,HeyGen 将国内公司主体注销,并将整个团队搬至美国。
徐卓在访谈中分享了他在 Snapchat 的工作经历,特别是 AI 相机的开发如何激发了他创立 HeyGen 的灵感。现阶段,HeyGen 不仅专注于用 AI 技术替代传统相机,还广泛涉足市场营销、内部网络研讨会和个性化学习等领域。
徐卓(Joshua Xu) 的核心观点包括:
- HeyGen 的使命是用 AI 技术替代传统相机,使每个人都能用视觉讲述自己的故事,降低内容创作的门槛。
- 通过虚拟化身技术,HeyGen 可以替代真人出镜,降低视频制作成本,特别适用于企业视频内容的创建。全身 Avatar 的技术研究是 HeyGen 接下来的方向。
- 生成式 AI 技术未来将能够创建流媒体生成视频的体验,可能会取代许多实时对话,特别是结合 GPT-4 和多模态实时流媒体技术。
- 两年后,看到大量 Avatar 生成和异步处理流程变成实时流媒体功能将不会是疯狂的想法。 未来五年后,生成的视频将不再是传统的视频格式,而是一种新形式。我们可以根据用户属性实时生成你喜欢的视频广告。
- 构建视频模型的挑战在于将美学融入 AI,优化成本函数较低的模型并不一定会产生更好的视觉效果。
- HeyGen 的团队规模超过 40 人,服务超过 40,000 名付费客户,客户包括欧洲制造商、小型企业、全球非营利组织以及财富 500 强公司。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
萨拉(Sarah)
我们先来谈谈背景吧。你创办了 Heyshan 公司,并且它经历了惊人的增长,现在已有数百万人在使用。你能讲讲创办这家公司的故事吗?
徐卓(Joshua Xu)
大家好,我是 Joshua,Heygen 的联合创始人兼 CEO。我们公司成立于大约三年半前。在此之前,我在 Snapchat 工作了约六年半。我在卡内基梅隆大学学习机器人学,并于 2014 年加入 Snapchat。最初,我在 Snapchat 从事广告排名和推荐的机器学习工作。之后的最后两年,我专注于 AI 相机的开发。Snapchat 利用大量 AI 技术来增强用户的相机体验。
如果你回顾 2018 年,Snapchat 发布了婴儿滤镜和迪士尼风格滤镜等功能,那是我第一次看到计算机能够创造和生成现实中不存在的事物。当时我对这项技术非常着迷,并且感觉它有可能改变人们创作内容的方式。Snapchat 是一家相机公司,用户通过手机相机创作内容。但我们希望用 AI 来替代传统相机,因为我们认为 AI 可以创作内容,成为新的创作工具。这就是我们创办 Heygen 的初衷,我们的使命是让视觉故事讲述变得更加容易。
萨拉(Sarah)
对你来说,替代传统相机意味着什么?为什么我们需要这样做?
徐卓(Joshua Xu)
我的整个职业生涯都在手机摄像头领域发展,我们致力于开发各种软件和技术,使人们更轻松地使用手机摄像头进行内容创作。然而,至今仍有许多人无法利用手机摄像头创作出优质内容。我们认为,如果能够替代手机摄像头,就能消除视觉内容创作的障碍。 这将帮助我们在整个内容创作领域迈出重要的一步。
艾拉德(Elad)
你们认为他们开发的技术可以应用在哪些领域?我觉得你们最初是从不同形式的虚拟化身开始的。通过这种技术,你们可以拍摄自己的视频,然后将其转化为一个可以输入文本的虚拟化身。这个化身可以用你的声音说话,并在不同领域执行各种任务。你们为什么选择从虚拟化身开始?你们认为主要的应用领域有哪些?
徐卓(Joshua Xu)
我们在创办公司之初,尝试拆解整个视频制作过程。视频制作主要分为摄像和编辑两个部分。摄像主要涉及真人出镜,而虚拟形象(Avatar)则可以替代真人。编辑则包括添加各种素材、配音、音乐、过渡效果和动画等。因此,我们了解到,编辑成本相对较低,因为它是一项标准化服务,但摄像成本非常高。
想象一下,如果一位公司的 CEO 想要录制一些视频内容,我们可能需要提前两周安排摄像团队,并在工作室进行实际录制。即使是两分钟的片段,有时也需要录制 20 分钟,因为人们需要背台词。这一环节使得许多企业难以创建新内容。因此,我们尝试通过制作虚拟形象来替代视频制作中的摄像环节。
艾拉德(Elad)
你认为这种技术未来的发展方向是什么?目前,生成式 AI 已被应用于多个领域,如营销、销售、内部网络研讨会和学习等。我很好奇,这种技术的最终形态会是什么样的?是每个人都有一个替代他们参加 Zoom 会议的助手,还是主要用于娱乐?你如何看待这种技术随时间的演变?
徐卓(Joshua Xu)
是的,我认为有很多可能性。目前我们正在解决的问题是内容创作的起点,即所有内容都从摄像机拍摄开始。接着,人们会进行大量的编辑。我们可以清楚地看到一条路径,即人们可以将所有生成的视频素材组装起来,并使用 AI 技术进行编辑,最终生成视频。如果我们继续推进技术,提高其性能,我认为我们将能够创建流媒体生成视频的体验。这实际上可能会取代我们今天的许多实时对话,特别是结合了 GPT-4 和多模态实时流媒体技术。
萨拉(Sarah)
2024 年,异步视频创作领域的发展情况如何?人们现在是如何使用 HeyGen 的?你最喜欢的使用案例有哪些?
徐卓(Joshua Xu)
我将视频生成的使用案例分为三类:创建、本地化和个性化。 用户可以从我们的头像库中选择角色,或者创建自己的数字双胞胎,然后选择模板或输入脚本生成视频。这种方式最适合用于产品说明、操作视频、学习发展以及销售赋能培训内容。我们还可以将现有视频本地化为超过 175 种不同的语言和方言,帮助客户将内容转化为当地语言。最后,人们还可以使用 Heygen 大规模个性化视频信息。
因此,我认为 Heygen 上有许多非常有创意的使用案例。我们是一个功能非常广泛的平台,我最喜欢的一个使用案例是最近与麦当劳合作的活动。麦当劳推出了一项甜蜜活动,允许人们用不同的语言向家人发送信息。
萨拉(Sarah)
确实,这非常酷。我指的是,这是一个面向公众的大品牌,类似于消费者使用的案例。你如何看待当前生成式 AI 的质量?你如何判断这些虚拟形象是否足够好?
徐卓(Joshua Xu)
质量一直是产品、业务和技术的首要优先事项,我始终遵循这一原则。质量有一个隐形的标准,例如,阈值设定为 90。任何低于 90 的产品对客户来说基本上是不可用的,因为我们无法真正满足他们的实际生产需求。因此,我们非常注重确保视频生成质量超过这个阈值。
我认为,特别是对于当前的 Avatar 技术,它已经达到了这一标准。所以我们确实可以帮助人们替代真实的摄像设备,释放大量创造力,扩展内容生产能力。当然,显然还有很大的改进空间,例如生成全身 Avatar,能够将各种元素整合到视频中。我们正在朝这个方向努力。
萨拉(Sarah)
即将发布的新产品中,你最感兴趣的是什么?
徐卓(Joshua Xu)
我认为我们的技术和产品路线图上有许多令人兴奋的进展。我尤其对全身 Avatar 的生成感到非常期待。过去,所有技术都集中在上半身,生成手势和身体动作非常困难。 但大量学术研究已经证明,现在完全可以实现这一点,我们只需将其应用到实际中。
另一个让我非常兴奋的是流媒体化身,特别是最新发布的 GPT-4o 对所有实时文本和语音交互性能的提升有很大帮助。Heygen 化身可以成为所有这些应用程序的可视化层。
萨拉(Sarah)
显然,要访问任何类型的视频,你需要使用完整的手势控制和动作。那么,今天的客户在全身运动控制方面有什么需求呢?比如你在过去几个月里进行的步行演示。
徐卓(Joshua Xu)
我们认为,不同的使用场景对质量的要求存在一个光谱。让我们从光谱的低质量要求一端开始看起。这一端主要涉及学习开发内容和教育内容,更像是面向大众的传播,主要是教育培训内容。在这里,质量要求较低,因为虚拟形象不需要太高的真实性。
但如果我们看光谱的另一端,即高质量要求的部分,比如营销内容。一个例子是广告创意内容,人们在广告中发布高度动态的内容。这可以真正帮助提高内容的投资回报率(ROI),使其更具吸引力。
我认为,实现全身动画渲染将有助于我们将虚拟形象和视频提升到一个更高的吸引力和真实性的新水平。这将有助于开拓许多应用场景,尤其是在更广泛的营销和销售领域。
艾拉德(Elad)
在新闻播报或其他内容中,他们经常会使用一些标准镜头,比如人们走路和谈话的场景。这些是他们常用的镜头。如果你有全身拍摄的能力,可以为各种应用领域提供服务。我想问一下,你们目前使用的技术有哪些?你提到了像 GPT-4 这样的技术,但你们也在内部构建了自己的模型。你们如何看待你们的技术栈?为了实现全身拍摄或其他新功能,这些技术栈需要如何演变?
徐卓(Joshua Xu)
有三个模型,对吧?文本、语音和视频。因此,我们在生成测试中使用了 ChatGPT,它们显然也充当了我们内部构建的编排引擎的大脑。我们与 OpenAI 和 EventLab 合作开发了语音引擎,但整个视频堆栈,包括 alpha 通道创建、视频渲染和视觉效果生成,都是我们内部构建的。 我认为,随着时间的推移,技术趋势正在朝着一个方向发展,所有这些技术将会一起训练,多模态媒体将会整合到一个单一的模型中。
我想指出的一个挑战是,如何将语音与手势动作连接起来。 这实际上可以通过将语音模型和视频模型一起训练来实现,从而在模型底层建立连接。这在过去一直很难,因为我们必须一方面训练 TTS(文本到语音)模型,然后将 TTS 模型的输出输入到视频模型中。建立这种连接非常困难,但通过多模态训练,这是完全可能的。
萨拉(Sarah)
显然,Sora 目前还未对开发者和终端用户开放,但已经有类似的世界级文本到视频生成模型。这些模型是通用的,而不是专门为虚拟形象设计的。那么这种技术与 Sora 有什么不同呢?当我们探讨这些差异时,可以发现,Sora 更加专注于虚拟形象的细节和表现力,而通用模型则侧重于广泛的应用场景。
徐卓(Joshua Xu)
创立 HeyGen 时,我们希望帮助企业解决视频制作问题。企业在寻找什么?他们需要的是质量、控制和一致性,对吧?因此,当我们确定方向时,我们将这些作为我们的目标。
那么,实现这一目标的技术路径有哪些呢?基本上有两条潜在路径。
一种是从文本生成图像的方式,我们尝试从头到尾生成整个视频,这样可以一次性获得完整的视频。另一种方法是我们在代理商中所相信的,我们尝试将整个视频拆解成不同的组件,主要分为 A 组和 B 组。B 组代表各种元素,如旁白、音乐、过渡效果和头像中的箭头。
我们逐一解决这些组件的问题,然后围绕这些组件构建编排引擎,将最终视频组装起来。我们认为这种技术路径更能提供品牌所需的质量、控制和一致性。例如,有些元素我们可能不应该尝试生成,比如标志和字体,这些需要非常准确。更不用说我们还需要能够学习,特别是在商业环境中,我们需要从客户那里学习品牌风格、颜色映射等。我认为第二种方法能给我们更多的灵活性和能力来构建系统。
事实上,我们将 Sora 视为我们的合作伙伴,因为我们可以将其作为一个组件生成器集成,然后将其输入到我们的编排引擎中用于商业应用。
萨拉(Sarah)
如果你专注于用户体验的各个方面,特别是视频技术栈的研究,这是你在 HeyGen 真正想要精通并达到最先进水平的领域,你会如何从研究的角度接触新功能?你会积极查阅学术界现有的研究,还是从客户反馈中寻找创新的解决方案?
徐卓(Joshua Xu)
我认为这是一个综合的过程。我还要补充一点,就是要真正深入理解模型的局限性,并尝试找到客户需求与技术能力之间的联系。当我们仔细审视这些局限性时,会发现所有的 AI 模型都有某种限制。
关键问题在于,我们如何围绕这些局限性设计产品,从而避免模型的不足,同时放大其优势,以向客户提供出色的产品体验。这对于发现新领域并解锁新的创造体验非常重要。
举个例子,当我们看视频翻译技术时,这是一种与传统配音完全不同的新方式。我们保留了用户的自然声音和面部表情。但如果你深入了解实现这种视频渲染的模型,实际上是一个唇形同步模型,对吧?
我们找到了一种方法,将语音和翻译与 ChatGPT 的能力结合起来,围绕它构建了一个出色的体验。 这样,我们就为本地化他们的视频和内容创造了全新的体验。
萨拉(Sarah)
机器学习有许多令人兴奋的商业应用场景。我认为很多人也觉得深度伪造(deepfakes)非常可怕,滥用他人肖像或声音的现象令人恐惧。你如何看待数据安全、选举安全以及滥用这些技术的问题?
徐卓(Joshua Xu)
首先,我们平台上不允许任何政治或选举内容。我们的政策严格禁止未经授权的内容,并且我们非常重视平台的滥用问题。因此,我们采取了一系列安全保障措施,包括先进的用户验证、实时视频认证、动态口令和快速人工审核等。
信任和安全对我们的业务至关重要,我们积极与行业内的合作伙伴合作,持续开发工具和最佳实践,以应对虚假信息和 AI 安全问题。
事实上,我们在设计平台时就将安全性纳入其中。如果你查看平台上的创作过程,会发现我们在每一个步骤中都考虑了这些安全问题和保障措施。
艾拉德(Elad)
这很有道理。我觉得这很有趣,因为如果你仔细想想,至少从积极的角度来看,你提到过如何防范负面影响。积极的一面是,比如在竞选公职时,你可以向每个选民发送一条个性化的信息,直接发送到他们的收件箱中,附上一段专门为他们录制的短视频,讨论他们特别关心的问题或类似的事情。
因此,你可以想象未来使用这项技术进行高度个性化的政治宣传。只要能避免深度伪造的负面影响,这项技术显然可能非常有价值。你认为这种生成大规模、差异化、个性化内容的能力,尤其是个人讲话的视频内容,会如何改变人们制作或使用视频的方式?
徐卓(Joshua Xu)
如果人们能够生成非常吸引人且真实的视频内容,他们会制作更多视频,并更多地将视频用于业务,以促进增长。我们生活在一个视频优先的时代,每个企业都希望制作更多的视频。
我认为目前整个行业的瓶颈在于,制作视频非常昂贵,而且需要数周或数月的时间。 这将从根本上改变人们思考如何发展业务、如何沟通、如何进行市场营销和销售的方式。
因此,我认为我们有很大的可能性可以创建和生成高度个性化的视频,特别是通过虚拟形象,能够提供非常动态和高质量的内容。
举个例子,很多生成式 AI 的应用不仅仅是为了节省成本和时间,这是价值主张的一个方面,但实际上我们看到很多客户使用它来解锁新的用例,并能够做一些他们以前无法做到的事情。我认为这是今天许多业务成果的关键点。
艾拉德(Elad)
你如何看待实时与异步的对比?目前,许多技术都集中在异步使用场景上,纯文本转语音模型也是如此。你认为我们什么时候会转向视频头像和应用的实时或接近实时使用?
徐卓(Joshua Xu)
我从两个方面来看待这个问题。首先是虚拟形象(Avatar)的实时应用,即使在现在也已经可以实现。我认为人们已经可以在全息图(Hologram)上体验到这一点。我们正在进行一些新的更新,使其速度更快。因此,它有可能成为虚拟 AI、销售开发代表(SDR)或虚拟支持,帮助接听客户电话或提供支持。 我认为技术一直在朝这个方向发展。
两年后,看到大量 Avatar 生成和异步处理流程变成实时流媒体功能将不会是疯狂的想法。 我还看到世界正在朝着我们可以实时生成整个视频的方向发展。
在未来的视频中,比如说五年后,我认为生成的图像仍然是图像,但生成的视频将不再是传统的视频格式,而是一种新形式。 我的意思是,当我们真正看视频时,我们把它看作是一个 MP4 文件,对吧?它是固定的。例如,如果你和我在 Instagram 上,我们可能会被推荐不同的广告,但只要我们被同一家企业推荐,我们看到的就是同一个 MP4 文件,但这不一定需要是这样。
假设我喜欢牛油果,我应该看到一个包含可口可乐和牛油果的广告。而你喜欢其他东西,你可能会看到不同的内容。今天这是不可能的,因为制作视频很昂贵,但这在未来可能非常有可能。
假设我们可以根据用户属性实时生成你喜欢的视频广告,这将可能成为一种新形式。 今天的视频播放器只对应一个 MP4 文件,但它不需要是这样。视频播放器实际上可以接收很多用户属性,并实时生成内容,以最佳方式向客户传递内容。
萨拉(Sarah)
我认为,一个有趣的比喻是,如果把 YouTube 视为当今世界上最大的学习工具之一,尽管它提供的是静态、不可变的视频,但显然,根据布鲁姆和其他研究的结果,个性化教育将是更有效的学习方式。然而,制作个性化视频非常困难且昂贵。这似乎也为不同的教育未来提供了一个机会。
徐卓(Joshua Xu)
我们看到客户的一个使用案例,比如阳狮集团,他们制作了超过 10 万个视频,这些视频是为了感谢全球员工,并且被本地化成不同语言,个性化地包含了员工的名字和他们加入公司时的喜好等内容。以往,这种感谢视频通常只有一个版本,可能是由 CEO 或执行团队对着镜头录制一段视频,感谢大家在 2023 年的付出。但现在,这些信息和沟通可以在非常大的规模上实现个性化。
艾拉德(Elad)
从研究的角度来看,构建自己的视频模型和使用第三方 API 各有哪些困难或挑战?
徐卓(Joshua Xu)
与许多其他模型不同,我认为构建能够将美学融入 AI 的视频模型相当困难。 视频生成不仅仅是一个数学问题,它实际上是关于创造客户喜爱和欣赏的内容。因此,一个优化成本函数较低的模型并不一定会产生更好的视觉效果。这就是为什么评估变得非常困难但也非常重要,因为这是为客户提供最终价值的关键。
我们必须依靠产品中的信号,例如 AB 测试,来了解哪个模型实际上更好,因为只有客户才能对此做出判断。这个过程通常与数学过程没有区别,我们必须围绕它建立一个系统,并能够将这些数据反馈到我们的模型训练中,以便不断改进。
艾拉德(Elad)
你是因为在 Snapchat 从事消费产品工作时想到这个方法的吗?还是在 HeyGen 的背景下才有的想法?
徐卓(Joshua Xu)
这两者确实非常相似,尤其是在处理相机软件时。那么我们如何判断哪个参数更好呢?我认为我们可以提出一些非常客观的标准,比如光线评分和分辨率。然而,我们发现高分辨率并不一定意味着更好的图像质量。以 iPhone 为例,它的分辨率并不总是比其他手机高,但拍出的照片却更受欢迎。是的,我们从早期的 Snap 中学到了很多类似的经验教训。
萨拉(Sarah)
你能说说今天 HeyGen 的规模有多大吗?
徐卓(Joshua Xu)
我们的团队有超过 40 人,目前在平台上为超过 40,000 名付费客户提供服务。我认为我们的客户非常特别,因为他们并非典型的 AI 早期采用者。我们的客户包括欧洲制造商、小型企业、全球非营利组织以及财富 500 强公司,他们都面临着我们正在解决的问题。
相关阅读