本次访谈由红杉资本主持,受访者是 Decart 公司的联合创始人 Dean Leitersdorf。对话的核心围绕着 AI 生成的视频游戏及虚拟世界技术,重点讨论了 Oasis 这一划时代项目。自成立以来,Decart 公司一直专注于实时互动游戏世界的开发,而 Oasis 正是该公司的最新标志性项目之一。两周前,《绿洲》(Oasis)作为首款实时生成式 AI 电子游戏走红网络,这款游戏是在没有游戏引擎的情况下通过实时推理渲染而成的。
目前,Decart 不仅致力于互动游戏,还积极探索生成式 AI 技术的应用,力求在不依赖于预设设计逻辑的情况下,为玩家提供全新的沉浸式体验。在访谈中,Leitersdorf 首先澄清了他对 AI 生成内容的定义。他指出,这不仅是对传统视频游戏的延伸,而是通过创新的交互和生成技术,创造了一个全新的数字游乐场,为用户带来了前所未有的体验。
Dean Leitersdorf 的核心观点包括:
- 连接想象与互动: 迪安强调了人工智能在人类想象力与数字互动之间架起桥梁的潜力。在他的设想中,未来的人工智能将允许用户以反映其想象力的方式与数字环境进行交互,例如将场景转换为 “权力的游戏 ”场景或实时修改对象。这代表着从传统应用向更加身临其境的互动体验的转变。
- 克服局限,而不是解决问题: 迪安提出,最有影响力的公司并不只是解决现有问题,而是克服根本限制。他将此比作个人电脑,个人电脑并没有解决一个具体问题,而是为无数应用创造了一个新平台。他认为这是一个难得的机会,只有偶尔出现,才能创造出突破性的技术。
- 游戏引擎和人工智能的作用: 讨论涉及到人工智能取代传统游戏引擎的潜力,即允许更动态、更灵活的互动。迪恩认为,人工智能可以让用户使用自然语言修改数字环境,从而更方便快捷地创建虚拟世界并与之互动,而无需大量的编码工作。
- 垂直整合,竞争优势: Shaun Maguire 重点介绍了 Decart 的全面垂直整合战略,即从低级硬件到高级用户体验的全面优化。这种方法与谷歌早期在分布式系统方面的优势进行了比较,表明深度整合可以通过提高效率和性能带来显著的竞争优势。
- 消费娱乐和人工智能的未来: 迪安设想,未来人工智能生成的体验(GX)将取代传统的用户体验(UX)。这种转变有望创造出新的娱乐和互动形式,更符合人类自然希望与技术互动的方式。我们的目标是创造出不仅让人身临其境,而且还能满足个人用户需求和偏好的个性化体验。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
生成式 AI 有潜力从根本上改变人与计算机互动的方式
肖恩·马奎尔(Shaun Maguire)
大家好,我是红杉资本的合伙人 Shaun Maguire。今天,我将与我的合伙人 Sonya Huang 一起采访 Dean Leitersdorf。Dean 是一位杰出的年轻人,他成长于以色列和美国两地。他以 23 岁的年龄成为以色列理工学院(Technion)最年轻的博士获得者,直到他 21 岁的弟弟后来打破了这一纪录。
Dean 所创立的 Decart 公司致力于提供创新的 AI 体验,通过前所未有的方式使人们与自己的想象力和他人的创意进行互动。为实现这一目标,公司采取了全面的垂直整合策略,从 CUDA 内核等底层优化入手到设计和训练自己的模型,以最终提升用户体验。在接下来的几个月中,我们将见证该公司一些引领潮流的发布活动。
桑娅·黄(Sonya Huang)
Dean,感谢你参加我们的访谈。我今天早上还在玩 Oasis,实在太有趣了。那么让我先请教一下,Oasis 是一款完全可玩的 AI 游戏引擎,这究竟是指什么?你们为什么要推出这个产品呢?
迪安·莱斯特多夫(Dean Leitersdorf)
几周前,我们发布了 Oasis。从技术角度看,其令人惊叹之处在于,它是首个具备实时运行能力的互动环境模型。用户可以与其互动,系统会实时响应用户操作。在 Oasis 的世界中,你可以移动、破坏方块、放置方块。因此,我们在没有游戏引擎的情况下,创造出一个不错的游戏。
然而,它的趣味不止于此。那么,究竟为何如此有趣呢?为了回答这个问题,我们暂且不谈 Oasis 1,设想一下 Oasis 3 的场景。撇开技术不谈,设想你有一面魔镜,你可以与它对话,指挥它完成一些酷炫的事情。比如,你对它说,“嘿,我在这里,这是我的手,我想握着一把剑。”
于是,镜中出现了一把剑。你移动手臂,剑也随之移动。你可以要求它把剑变大或者变成蓝色,它就会照做。接着你又说,“好,现在把我变成《权力的游戏》的世界。”周围的一切瞬间变成了那个世界,你还戴上了王冠,并可以自行修改。当你开始跳跃、四处移动时,魔镜都能相应地做出反应。
这正是它的趣味所在,因为这种体验与以往在现实世界中所感受到的截然不同。它使我们能够通过屏幕展现想象力,连接起我们脑海中的想象与眼前的可视体验。这正是我们的目标。那么,生成式 AI 如何真正实现这一点,将我们的想象力与屏幕上的画面相结合呢?它能让我们进入之前未曾探索过的世界,有潜力从根本上改变我们构建应用程序以及与计算机或硬件互动的方式。
桑娅·黄(Sonya Huang)
我喜欢这面镜子。那么接下来呢?你这么说是什么意思?这是一个关于社交媒体的项目吗?你正在开发一个游戏吗?你是在构建一个互动的世界模型吗?我应该如何理解‘Oasis’这个概念?
迪安·莱斯特多夫(Dean Leitersdorf)
那么让我来问你。ChatGPT 能解决什么问题?
桑娅·黄(Sonya Huang)
作业。
迪安·莱斯特多夫(Dean Leitersdorf)
作业,好吧……它还解决了哪些问题?
肖恩·马奎尔(Shaun Maguire)
这使得与计算机进行对话变得更加容易了。
迪安·莱斯特多夫(Dean Leitersdorf)
Shaun 对答案很有把握,所以他表现得很自信。
迪安·莱斯特多夫(Dean Leitersdorf)
事实上,事情就是这样。简单地说,ChatGPT 并没有直接解决具体问题,而是帮助你更好地完成作业、撰写邮件和总结信息。它的作用不在于解决问题,而在于克服了一些基本的限制——正如 Shaun 所说的,它消除了人类与计算机之间的沟通障碍。
计算机使用结构化语言进行交流,而人类使用非结构化或复杂结构的语言。大型语言模型(LLM)正是在这方面架起了桥梁,使得计算机能够用我们理解的语言进行交互。一旦这一障碍被克服,其他各种问题就可以在此基础上解决。因此,通过生成式对话或互动视频,我们不仅在文本方面,也在视觉上突破了沟通的障碍。
现在,计算机能够从我们的视角观察世界,并以我们易懂的方式向我们展示世界。解决这一点,就建立了一个可以不断构建各种应用的平台,例如从新一代的 Snapchat 或 TikTok 到为战斗机飞行员设计的模拟器。这就是重点所在。
到了 2024 年,我认为我们在 Decart 所做的最有意思的事情之一就是,我们创建了一家公司,其目的是克服限制,而不是解决问题。99%的公司都是为了解决问题。当你看到那些向 Sequoia 或其他风险投资公司推介的公司时,他们通常会这样开始:这是我们要解决的问题,这个问题的规模有多大,这是我们的市场总额(TAM),以及我们如何解决这个问题。
通常,这样的介绍中,前两个因素保持不变,否则的话,你就会称之为转型,对吧?你说,好吧,这是我正在解决的问题。如果你改变了解决的问题,就称它为转型,而解决问题的方法可能会改进数百次。大多数公司以及在一般年份中你能做的事情都是解决问题。然而,在历史上的某些时刻,大约每 10 到 15 年一次,你有机会建立一些东西,不是为了直接解决问题,而是为了克服限制。让我换个角度问你这个问题:Mac 是面向消费者的产品还是企业产品呢?
肖恩·马奎尔(Shaun Maguire)
这是一家硬件公司还是软件公司?
迪安·莱斯特多夫(Dean Leitersdorf)
这是一家硬件公司还是软件公司?它解决了哪些问题?个人计算机在从游戏到使用 Excel 的各种应用中几乎无所不能。特别值得一提的是,你正在构建一项令人惊叹的科技,并可以通过多种方式将其产品化。
桑娅·黄(Sonya Huang)
我很喜欢你所创建的这些内容,并且没有使用游戏引擎,这非常酷,我能感受到这一点。你认为这说明了什么?你觉得游戏引擎已经过时了吗?
迪安·莱斯特多夫(Dean Leitersdorf)
最初设计游戏引擎的目标是让一个人能够创造一个世界,同时另一个人可以与之互动。这正是游戏引擎的使命所在。它涉及到游戏开发者和用户的使用。这一概念也适用于电影或其他使用游戏引擎的领域。最近,虚幻引擎在电影制作中得到了广泛应用,它是一个非常有价值且具有众多优势的产品。
在这个高度协作的环境中,你可以精细地打造内容。然而,挑战在于进行互动可能会耗费大量时间。人们喜欢在基础游戏上做各种改动。在深入这一领域之后,我们可以看到许多创新的例子,比如现在已有一个将宝可梦加入《我的世界》的模组(mod),玩家可以在森林中探索,看到行走的宝可梦。这是真正的用户创作。人们自然认为既然有了这个平台,他们就想进行修改,这就是模组的魅力所在。通过 AI 运行游戏或环境,你可以像习惯与 AI 互动那样与其进行交互。比如,你可以提出“能不能换成艾莎主题?”(艾莎是电影《冰雪奇缘》中的角色),瞬间所有东西就变成了艾莎主题。想要加入一个会飞的大象?游戏中就会出现一个会飞的大象。而且不止是画面,你可以与它进行互动,可能与大象进行战斗,而它也会进行反击,或者其他的互动方式。
因此,我认为,如果要有一种趋势取代游戏引擎,它必须允许一个人构建世界,另一个人能够与之互动,这实际上正在发生。更重要的是,这一趋势将使编程变得更容易,只需使用语言指令,而无需编写代码。即使对于会写代码的人来说,也能更快速地进行迭代。总之,我认为这将使我们的模组制作速度加快,并实现更具互动性的模组创作。
肖恩·马奎尔(Shaun Maguire)
为了更深入地探讨技术层面的问题,你是我见过的第一个能够实现实时推理的视频模型。实现实时推理需要具备哪些要素呢?这项任务有多么困难?请为我们介绍一下实现这一目标所需的各种要素。
迪安·莱斯特多夫(Dean Leitersdorf)
回顾三四个月前的夏天,有人提到:“哦,等 NVIDIA 的 Blackwell 芯片发布后,我们就能实现实时视频了。Hoppers 和 H100 都无法做到这点,我们必须等待 NVIDIA 的下一代产品。”
我记得从不同的渠道听到过这样的说法。当时大约有两周的时间,大家都在讨论这个话题,但不知道为什么。然而,事实上,H100 是可以实现实时处理的。为了做到这一点,你需要同时应对两个方面的问题。首先,需要在模型上做出许多调整。并不是所有的视频模型都能实时运行。你需要以不同的方式训练模型,架构也必须做出一些必要的改动,这些改动虽然不大,但却不可或缺。
同时,你还需要在系统层面进行大量工作,需要自己编写 CUDA 内核。我们甚至放弃了 PyTorch 的垃圾回收器,自己从头开始编写了一半的代码。要实现真正的实时处理,必须在系统层面上自行设计所有内容。因为如果只完成其中一个部分,你只能等待其他人帮你完成剩下的部分。仅完成系统层面的工作,由于没有合适的模型来配合,是无法实现实时运行的。同样,如果只专注于模型方面的工作而没有系统支持,也无法实现实时运行。
桑娅·黄(Sonya Huang)
可以介绍一下这个模型的工作原理吗?它是基于 Transformer 架构的吗?与类似 Soras 的系统相似吗?你们在模型开发方面有哪些具体改进?
迪安·莱斯特多夫(Dean Leitersdorf)
简单来说,这类似于一种全球影响力的模式,只是此处的提示来自用户的操作,而不是文本。这是最容易理解的方式。你可以把它想象成一个从文本生成视频的模型,输入一句话后就会得到对应的视频。在这种情况下,提示来自键盘输入和之前的帧画面,然后生成下一帧。
桑娅·黄(Sonya Huang)
你是如何从动作和视频中获取数据的呢?
迪安·莱斯特多夫(Dean Leitersdorf)
确实,在这种情况下,你需要进行一些常规视频模型不需要的预处理步骤。例如,你需要为游戏的原始录制内容进行标注,明确记录每一步所采取的动作。为此,我们训练了一个轻量级模型来完成这项任务。实际上,这并不需要大量的数据。通过一个不需要大量训练样本的小型模型就可以解决,因此你可以简单地让我们的团队进行游戏并录制下来。随后,你将得到一个小模型,并用它来自动标注你所有的数据。
桑娅·黄(Sonya Huang)
这非常有趣。请问你们是在构建一个世界模型,还是仅仅表现为像素?
迪安·莱斯特多夫(Dean Leitersdorf)
这里的图像全以像素形式呈现,这正是它的美妙之处。让我们将其与您讨论的 3D 世界模型及其他事物进行比较。在 AI 领域,长期以来有一个普遍的问题:是该从端到端解决问题,还是利用现有的工作流程来提高效率?解决这个问题的方法可能有两种。
首先是游戏引擎的使用,比如已经很成熟的 Unity 和 Unreal。我们可以融入这样的工作流程,构建从文本到 3D 的系统,这样就可以只需描述一个大象,就能生成大象的 3D 网格,并将其嵌入到 Unity、Unreal 或其他使用的游戏引擎中。另一种是端到端的解决方案,最终只需要一个显示屏来呈现内容。
这两种方法显然存在竞争关系,但我认为随着时间的推移,两者之间会有某种融合。从技术角度来看,它们各有优点。前者更一致,可以确保物体外观一致性,而后者更灵活,允许实时调整,如修改大象的尾巴大小。从长远看,这两者会实现融合。
目前,从提示到像素、从按键到像素的操作仍是主流。从理论上讲,未来两三年解决问题的最佳途径是结合这两种模型。所有的模型都是基于 Transformer,因为 Transformer 是胜出者。一个模型负责维持某种状态,即游戏状态,与像素无关,类似大语言模型(LLM)风格的 Transformer。它通过当前状态和用户的新操作输出状态变化。而另一个模型接收状态并将其渲染成像素。这种融合路径能够真正综合利用世界模型和扩散模型的优点。
桑娅·黄(Sonya Huang)
您想构建这两种模型吗?
迪安·莱斯特多夫(Dean Leitersdorf)
当然,的确如此。
迪安·莱斯特多夫(Dean Leitersdorf)
我认为我们还没有到达那个阶段,我们需要更多的时间才能达到。
肖恩·马奎尔(Shaun Maguire)
令我印象深刻的是,Dean 和 Decart 的目标是打造一个完全垂直整合的系统,他们对电子移动的理解非常深刻。他们不仅掌握电子在逻辑门及其不同类型中的传输方式,还拥有对比汇编语言更基础的层次的透彻理解,并能够优化汇编中的 CUDA 内核。他们从电子到人眼所见的像素之间的各个环节都进行了全面优化。我认为,通过这种方式,他们将始终比那些仅关注应用层面的人具备至少十倍的优势。
桑娅·黄(Sonya Huang)
事实上,请谈谈这个话题,因为 Sean 对此非常感兴趣。我想可能会有人反对这个想法,认为需要具备专业化,您同意吗?设想一下,像 NVIDIA 这样的公司有一万名才智超群的人专注于这个领域。而你们则应致力于创建最佳用户体验和病毒传播的循环。那么,能否分享一下你们选择进行垂直整合的原因呢?
肖恩·马奎尔(Shaun Maguire)
让我给大家讲一讲,因为 Dean 自己不太擅长像我们这样宣传自己。我从小就对研究商业模式充满了热情,这始终是我的兴趣所在。在我看来,Google 是有史以来最令人惊叹的公司之一,其战略和执行力同样令人赞叹。我在 Google 工作过几年,感觉到人们对 Google 的“护城河”存在误解。我也认为人们对 NVIDIA 当前的“护城河”有误解。
在我看来,Google 真正的优势不在于 Sergey 和 Larry 发明的 PageRank——一种优美但简单易实现的算法,本质上是基本的图论。PageRank 问世后很快被广泛模仿。Google 真正的优势在于其在分布式系统和底层系统优化方面的顶级水平。 他们早就意识到,当时其他搜索引擎都在购买 Sun Microsystems 的服务器机架,用昂贵的硬件实现容错。
而 Google 则发现可以通过购买便宜易失的消费级硬件,比如游戏电脑中使用的 Intel Pentium 处理器或 SanDisk 内存,然后用五倍于其他硬件的数量来提升总能效或容量。尽管失败率高,但这种方案的性能成本仅为其他方案的 1/50。通过深入优化分布式系统以最大化硬件性能,他们赢得了十倍的成本优势。
回想第一次使用 Google 时,它的界面非常简单,仅是一个白色网页和一个搜索框。当时,我觉得其视觉效果甚至不如 Yahoo,Yahoo 还有聊天室和其他更吸引眼球的功能。但 Google 的神奇之处在于其后端性能带来的成本优势,这得益于对硬件层面的极致优化。 Dean 和 Decart 的故事让我很有共鸣。我们需要保持谦逊,这家公司还远未能与 Google 相比。对我们来说,Sequoia 共同领导了 Google 的 A 轮融资,我为此感到自豪;我们也参与了 NVIDIA 的种子投资,可以说,我们有良好的投资历史。
迪安·莱斯特多夫(Dean Leitersdorf)
良好的业绩记录。
肖恩·马奎尔(Shaun Maguire)
过去的良好业绩。此外,还提到了 A 轮融资和苹果公司。
桑娅·黄(Sonya Huang)
广告播放结束。
肖恩·马奎尔(Shaun Maguire)
广告结束了……不过,这只是一个过渡阶段……
肖恩·马奎尔(Shaun Maguire)
我认为,要真正提供一种令人愉悦的体验,比如一种完美的“镜像”体验,即便是对于一个非常简单的前端,你也需要一个高度优化的后端。必须做到这一点,否则就没有意义。如果不能提供实时体验,那效果就不好。此外,我认为未来一年内,如果不对系统进行彻底的底层优化,是无法实现实时体验的。所以,我个人认为这是必须要做的。我注意到目前只有这群人在积极这样做。
迪安·莱斯特多夫(Dean Leitersdorf)
哇,我非常喜欢 Shaun 刚才所说的话,其中有两点特别引起了我的注意。一点是关于垂直整合的内容,这也是我们稍后会讨论的,并且能回到你最初的问题。另一点是,我不会透露名字,但最近我与 Google 的一位非常资深的高管进行了交谈。我们回忆过去,试图了解一些情况。因为在 Google 成立时,我才仅仅三个月大,那时我在那里,但并没有真正意识到事情的发展。
肖恩·马奎尔(Shaun Maguire)
Dean,我知道你可能一直在密切关注。
垂直整合:加快行动速度
迪安·莱斯特多夫(Dean Leitersdorf)
我试图理解刚才发生了什么,以及为什么会觉得有趣。这是在一个谈话中提到的不相关的话题。我们讨论的是 GPU 集群通常有多么不可靠。如今,无论是在超大规模供应商还是在 GPU 云服务上,如果你尝试在任何集群上训练一个模型,每隔几个小时就可能会出现崩溃。而且会出现一些奇怪的问题,比如由于两节点之间电缆上有灰尘,导致某个节点崩溃,而你却得不到任何提示,无法知道具体原因。你的训练环境会崩溃,然后你会想:“为什么会崩溃?”但无论如何重启都无济于事,直到你逐个移除节点才弄清原因。
这就是行业的现状。大概只有像 Google 和 OpenAI 这样极大投入系统资源的公司不会遇到这些问题,他们的硬件和软件都非常优化。无论是大企业还是小型初创公司都面临这些问题。我曾与 Google 的员工交谈过,他们形容现在的训练环境就像 90 年代的 CPU 时代,没有 Kubernetes,也没有 VMware,服务器常常崩溃。大多公司不愿处理这种情况,因此要么支付更高费用给更好的高级服务,要么消耗更多时间。硬件的发展最终会趋于稳定。
或许一两年后,训练运行会更加稳定,NVIDIA 会让他们的芯片和代码更成熟,GPU 云服务提供商也会改善。但是,目前这种稳定性还未实现。如果今天你要训练一个模型,就必须面对这些问题。在 Decart,我们这样解决这些问题。比如你看到的 Oasis 模型,从开始到结束仅需 20 小时就能收敛。你可以与我们与其他 AI 实验室合作的情况进行比较,那些实验室对这样的结果感到惊讶。
我谈论的是顶尖实验室在训练扩散模型时,通常需要两周时间才能收敛。一方面因为他们没有使用优化的系统层,另一方面是因为训练过程每隔数小时或数天就会中断。而我们能将完整的训练保持一周甚至两周不中断。这种可靠性与以往完全不同。我们有一份内部文档,记录了训练模型时可能出现的各种问题,现在应该有 200 页。从一个节点上的错误信息要求硬件操作员检查两个节点间的问题,到另一个有趣的情况。
当训练 Oasis 时,我们需要生成一些合成数据。有很多 CPU 资源,但仅被利用了 3%。所以我们在训练时同时在集群上生成合成数据。这个动作使我们的 GPU 云非常惊讶,因为我们将集群的利用率提升了两倍,同时使用了 CPU 和 GPU,甚至通过 InfiniBand 在训练时传输数据,这使得我们比预期的集群利用率更高。其实说得通,GPU 已经在使用,而 CPU 没被充分利用,所以并行运行合成数据不该有问题。
然而,训练失败了,随机报错,可能因为数据加载器缺少锁文件。听起来毫不相关,但其实在生成合成数据时,使用了更多的网络带宽,导致 Python 数据加载器把通常是网络映射的日志文件转换到磁盘上,导致不同节点上有不同的日志文件,最终导致数据加载器崩溃。可能我解释得不完全正确,团队可能会纠正我,但总结就是,做了一件合情合理的事情,却出错了。这就是我们的日常,我们有 200 页记录类似问题的文档。这就是我部分所讲的内容。
肖恩·马奎尔(Shaun Maguire)
这是一个简单例子,Dean 很乐意分享,是他们遇到的比较简易的案例之一。然而,他们还需要处理比这复杂 100 倍、重要得多的问题。我认为这个例子相对简单,但它展示了当前 AI 的实际状况。Dean,如果你不愿意谈这个,可以不用讨论。不过,他们获得了一个新的集群,但集群上的内存还未安装。然而,GPU 只有非常小的板载存储,大多数人甚至无法使用这些 GPU。你能分享一下这个故事的细节吗?
迪安·莱斯特多夫(Dean Leitersdorf)
这是一个很有趣的故事,我们把它称作“地球上训练视频模型的最佳地点”。要训练视频模型,不仅需要高效的集群,还需要完善的存储和网络等资源。要打造这样的最佳地点,需要完成许多工作。实际上,我们距离实现这一目标还有很长的路要走。
我相信在接下来的半年中,关于这一过程的许多方面将会逐步明确。许多 GPU 云服务商也在为此不断努力。然而,我们使用的某些集群居然没有配备存储;多个云服务商的不同集群都存在这一问题。尽管如此,这些云服务商仍在提供 GPU,并致力于让系统正常运行。
肖恩·马奎尔(Shaun Maguire)
他们过于专注于关注 H100s,因此忽视了内存和存储部分。
迪安·莱斯特多夫(Dean Leitersdorf)
我们当时表示,没问题,不用担心,他们会去安装,他们会完成目标任务。你知道,他们尝试尽快完成所有任务并投入使用,这完全合理。因此,当时并没有可用的稳定存储、存储优化节点或 S3 存储桶。于是我们想,也许每个节点都有一些 SSD 连接在上面,如果我们在此基础上自己构建一个小型分布式文件系统怎么样?
最终,我们这样做了,并取得了成功。为实现这一目标,我们克服了许多问题,最终成果令人满意。这让我想到你之前关于垂直整合的问题。在垂直整合方面,我想说,Sean 对业务的理解比我透彻得多,他在这个领域有着比我丰富得多的经验。那时我还在攻读博士学位……
桑娅·黄(Sonya Huang)
我觉得他好像刚刚称呼你为“年纪大”。
肖恩·马奎尔(Shaun Maguire)
我说的是经验……我从 Google 刚推出的时候就开始使用它,在 NVIDIA 首次公开募股时就买了它的股票,那正是我出生的时候。
迪安·莱斯特多夫(Dean Leitersdorf)
我记得 NVIDIA 上市是在我出生之前的事情,是 1996 年还是 1999 年?不管怎样。对于我而言,垂直整合通常能带来两大好处:一是降低成本,提高利润率;二是加快行动速度。 也许可以说垂直整合有三个好处,但具体是什么就不一定了。
在 AI 领域,当然每个方面都很重要,不过我认为第二点更加关键。毕竟,当我们面对这些问题时,解决它们需要耗费时间。你知道吗,我记得《The Information》上的一篇出色文章提到,一些从谷歌出来创业的人突然发现,外界的一切并不像在谷歌内部那样顺畅。例如,他们突然发现获取足够的存储空间变得困难,或者云服务提供商不支持某些功能,结果需要自己解决这些问题。
不过随着时间的推移,这些问题会逐渐得到解决。云服务将提供必要的功能,一些出色的公司也会提供中间层服务甚至是模型训练服务,从而简化我们的工作流程。如果能够实现真正的端到端整合,就能比竞争对手提前一到两年进入市场,而这才是关键所在。看看谷歌或 iOS 的发展史,可以发现技术壁垒最终都是短暂的。 谷歌的搜索引擎非常出色,但必应也不差。谷歌可能拥有更多的数据来实现功能,而微软一直在改进必应,使其成为不错的搜索引擎。
尽管有技术,但这并不意味着必应和谷歌目前是对等的。最终,这场竞争在于抢先两年建立技术壁垒,如同谷歌和 OpenAI 那样,然后迅速转化为新的模式。我们必须参与这场竞争。如果我们选择将红杉资本的投资存入银行,享受利息,去海滩度假两年,那么可能有人已经提前超越我们了。这正是我们选择垂直整合的原因。
桑娅·黄(Sonya Huang)
我喜欢这个。那你的遥控器会是什么样子的呢?
迪安·莱斯特多夫(Dean Leitersdorf)
是长期的还是短期的?
肖恩·马奎尔(Shaun Maguire)
这是两者兼备的情况。
迪安·莱斯特多夫(Dean Leitersdorf)
两者都表现得非常出色。从短期来看,我们的技术的确很优秀。我们的系统层技术是顶尖的,同时我们也在处理模型层的部分。因此,在短期内,我们实现了全面整合,这就是你看到的最终模型。至于长期发展,我认为这是一个很好的问题,并愿意分享一些我觉得非常有趣的见解。目前存在一种新的、更微弱的网络效应,和过去有所不同。这与人们在 TikTok 上对产品的评价有关。
之所以特别有趣,是因为我们可以从一些公司中学到很多东西,其中我认为极其优秀的一家公司是 Character AI。他们没有被 Google 收购,而是选择专注于大型模型的训练,我们从中获得了许多启示。当他们的营销活动开始成功时,立即出现了许多竞争者。据说他们的技术模式可以持续约半年,直到 Meta 发布开源模型,其他人才开始应用这些模型。他们依然是垂直整合者,能够以十倍于其他人的效率运行,这实在令人赞叹。
而让我特别关注的是他们在 TikTok 上的表现。如果你在 TikTok 上搜索任何 Character AI 的竞争对手,你会看到一个关于该竞争对手的视频,接下来的则是上百个关于 Character 的视频。即便那些视频最初并不是关于 Character 的,评论也都围绕 Character 进行。如果你和一个普通的 Character AI 用户交谈,他们甚至不知道有竞争对手。因此,TikTok 在某种程度上创造了一种新的模式:即人们在 TikTok 上的评价能否形成某种微型网络效应或是小品牌效应?对于这是否是网络效应还是品牌效应,我也不太确定。
桑娅·黄(Sonya Huang)
这与普通品牌有何不同?
迪安·莱斯特多夫(Dean Leitersdorf)
它与品牌非常相似,只是直接呈现在你面前。20 年前,这种品牌是可以被接受的。你听过你的朋友或父母谈论过这类事情吗?现在,尤其是年轻一代,他们总是使用 TikTok,因此能够快速获取这些信息。因此,如今有个大问题,即像这样建立起来的竞争壁垒是否能在两三年内存续,直到获得如谷歌那样强大的品牌壁垒,或如分销网络那样持久的竞争优势。我认为,我们确实处于一个新的市场环境中,这里的竞争优势不一定像十年前那样牢固。
桑娅·黄(Sonya Huang)
非常有趣。
生成式体验将取代用户体验
肖恩·马奎尔(Shaun Maguire)
硬件始终是最强的护城河。 我认为,Google 不仅拥有初步的软件护城河和分布式系统护城河,还将其扩展到硬件层面。这使得 Google 在硬件方面具备极大的成本优势,但在应用层面未能充分利用这一优势。自公司成立以来,他们并没有开发出真正出色的消费者突破性产品。
然而,在硬件发展上,Google 却做得很出色。在我供职于 Google 期间,一个项目让我大为震惊,并启发了我之后的一些投资决策。Google 通过构建光交换机提高了数据中心的数据传输能力,这在“Jupiter Rising: Google Data Center”相关论文中有所提及。通过启动这些光交换机,数据中心的性能大约提升了一倍。这些交换机主要负责数据中心机架间的通信,将电子信号转化为光信号。制造这些设备非常困难。
如果彼时询问 Google 之外的任何人是否可能建造每秒传输 100 太比特的交换机,他们多半会认为是不可能的,但 Google 做到了。多年来,人们甚至不知道 Google 已经掌握了这项技术,并且它将数据中心的功耗降低了大约 30%。这种技术才是真正意义上的护城河。我认为,预测未来公司护城河的具体形态总是困难重重,但我坚定相信硬件是终极护城河。
这部分因为硬件系统通常需要较长的建设周期,比如制造原子器件、建立晶圆厂、获取电力和建设发电设施。即便是在一个拥有通用人工智能(AGI)或十亿个 Optimus 机器人存在的世界中,制造新硬件仍然需要更长的时间。因此,我希望 Decart 公司也能建立属于自己的硬件护城河。
迪安·莱斯特多夫(Dean Leitersdorf)
我认为我同意你的观点。从长远来看,这可以追溯到我们创立 Decarte 时。我们称之为“黄金机会”,这种创业机会可能一生只有一次。当时我们认为,与其在某个革命性技术变革中创建公司,不如说我们有机会去解决一些根本性的问题。
我们分析了该领域,并认为可以建立三个潜力巨大的公司:首先,创建一家能够与 NVIDIA 竞争的公司,专注于为 AI 开发下一代芯片。尽管这非常困难,因为 NVIDIA 不仅是芯片巨头,还是供应链的领头羊,但如果你在商业上表现出色,整个行业都会愿意支持你,所以这也是可行的。
其次,建立下一个 AWS,因为随着工作负载的转变,我们有机会创建一个新的云服务。这也非常、非常困难,因为在这个市场中已有默认的赢家,即使其他人都失败了,三巨头仍然会胜出,还有像 Oracle 这样的云服务。
第三,是创造新的用户体验,这些体验会发生显著变化,从而推动下一个万亿美元公司的崛起,而且这一过程可能在五年内完成,而非三十年。我们必须选择一个方向来起步。我们选择了创造新的用户体验,但成为 NVIDIA 的竞争者同样是一个非常有吸引力的备选方案。所以,总有一天我们会考虑回到这个想法。
桑娅·黄(Sonya Huang)
我理解你们为什么会成为朋友。我会以最后一个问题结束这次对话:如果一切顺利,十年、十五年或二十年后的 Decart 会是怎样的?你希望创造出什么样的体验?未来的消费者娱乐会是什么样的?我不确定这是否是正确的市场。
迪安·莱斯特多夫(Dean Leitersdorf)
我要特别感谢来自红杉资本的 James,因为他是这个术语的创始人——我们称之为生成式体验,简称 GX。我们认为用户体验(UX)已成为过去,取而代之的是生成式体验。 基本上,我们将创造新型体验,以契合人们与电脑互动的新方式。这涵盖从角色 AI 到实时视频模型,再到生成式体验的所有内容。这是我们即将看到的发展方向。
最终,Decart 公司就是一家专注于生成式体验的公司。我们通过从系统层面进行全面的纵向整合来实现这一点。总而言之,你正在创造一波将影响全球每一个人的新体验浪潮,这就是笛卡尔公司的目标所在。现在唯一的问题是,这项工作是需要 10 年还是 15 年。在当今时代,可能所需的时间会更短。过去巨头们征服世界用了很长时间。我不确定是否需要那么久,但至少需要五年。
桑娅·黄(Sonya Huang)
在时间尺度的选择上,你与许多顶尖的 AI 研究员有不同之处,对此我非常敬佩。我们来进行一个快速问答来结束这次采访吧,可以吗?
桑娅·黄(Sonya Huang)
除了 Oasis 之外,我最喜欢的 AI 应用是 Notion AI。它利用生成模型 AI 技术帮助用户提高生产力,通过自动化写作、辅助头脑风暴和系统化数据整理等功能,大大简化了日常任务。
迪安·莱斯特多夫(Dean Leitersdorf)
我们在策略与角色之间必须做出选择。那么,这些角色的用途是什么呢?即使你决定不使用这些角色……嗯,从基本概念上讲,我们将拥有作为实体的应用程序,这些应用程序将在用户之间维持某种关系,无论是友谊还是功利性的。我认为,这将成为未来众多事物的基本平台。
桑娅·黄(Sonya Huang)
我确实喜欢这样。至于我最喜欢的 AI 公司,可能和我之前提到的一样。
肖恩·马奎尔(Shaun Maguire)
你第一次编程是在什么时候?
迪安·莱斯特多夫(Dean Leitersdorf)
我第一次编程是在我 13 岁的时候,当时我制作了一个用于 RuneScape 的机器人。RuneScape 是一个非常出色的游戏,我玩了很多年。六年后,我从网上下载了一个机器人程序准备使用,但在使用后的 24 小时内就被封禁了。
肖恩·马奎尔(Shaun Maguire)
你最喜欢的科学家是谁?
迪安·莱斯特多夫(Dean Leitersdorf)
我最喜欢的科学家是达·芬奇,因为我认为他不仅是一位出色的科学家和工程师,还擅长让人们为他的项目提供资助。他确实是一个了不起的科学家和工程师,同时在某种程度上也懂得如何从当时的赞助者,比如国王等贵族手中筹集资金。因此,达·芬奇无疑是我最喜爱的科学家。
此外,我也非常欣赏笛卡尔和特斯拉。我们选择使用笛卡尔这个名字,灵感来源于我们对特斯拉公司的喜爱,他们的名字充满了象征意义。我们需要一个像尼古拉特·特斯拉之于特斯拉公司一样具有象征意义的人物,而笛卡尔恰恰就是这样,因为“我思故我在”几乎成为许多现代人工智能特性的象征。
桑娅·黄(Sonya Huang)
Dean,祝贺你取得的成就。感谢你今天加入我们的讨论,我们非常喜欢这次对话。用这句话作为结束语最合适不过了。
肖恩·马奎尔(Shaun Maguire)
Dean,目前我不会提前祝贺你,因为你还没有取得具体成果。让我们一起努力,创造出令人惊叹的成就。不过,我非常欣赏你这样的态度。
迪安·莱斯特多夫(Dean Leitersdorf)
只有获得真正的胜利,我们才能庆祝。小的胜利不足以让我们欢庆。