在人工智能领域不断发展的背景下,著名 AI 研究者李飞飞,作为 World Labs 的联合创始人之一,近日揭示了 AI 技术的最新前沿动向。World Labs 的成立标志着人工智能发展的一个新阶段,其目标是开发拥有三维空间智能的 AI 系统。这种系统不仅能改变人类与世界互动的方式,还预示着 AI 将逐步深入理解并生成现实世界中的复杂信息结构。
在此次访谈中,多位知名 AI 研究人员参与并详细探讨了空间智能在推动机器人技术、增强现实以及虚拟现实领域中的广泛应用。李飞飞表示,这项技术将突破现有的二维数据处理能力,未来的 AI 将能感知、生成并与三维世界互动。这种突破显然为多模态大语言模型的应用开辟了新的可能性和需求。她希望,通过这一变革性的研究,各行业能够从中获益,并产生深远影响。
李飞飞的核心观点包括:
- AI 技术的迅猛发展:李飞飞和贾斯汀·约翰逊讨论了AI技术的快速发展,从深度学习到生成式AI的转变,以及这一转变如何推动了行业的实际应用。
- 深度学习的兴起:深度学习技术的兴起,特别是卷积神经网络(CNN)的应用,为计算机视觉领域带来了革命性的变化。
- 生成式 AI 的突破:生成式AI技术的进步,如风格迁移和NeRF(神经辐射场),为创造新内容提供了新的可能性。
- 空间智能的探索:李飞飞和贾斯汀·约翰逊讨论了空间智能的概念,即机器在三维空间和时间中进行感知、推理和行动的能力。
- 长期追求与短期目标:李飞飞和贾斯汀·约翰逊都表达了对AI技术长期追求的承诺,同时也强调了实现具体里程碑的重要性。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
AI 正经历爆发式的增长
马丁·卡萨多(Martin Casado)
在过去的两年里,我们目睹了面向消费者的人工智能公司和技术掀起了一波巨大的浪潮,这令人惊讶。然而,您在这一领域已工作数十年。能否请您分享一下我们是如何发展到今天这个阶段的,以及在这一过程中,您有哪些关键的贡献和见解?
李飞飞(Fei-Fei Li)
眼下是个激动人心的时刻,对吧?回想过去,AI 正处于一个非常令人兴奋的阶段。我个人从事这个领域已经有二十多年。我们不仅走出了上一个 AI 寒冬,还见证了现代 AI 的诞生。随后,深度学习的兴起令我们看到了下棋等的各种可能性。
但更重要的是,我们见识了技术的深入发展和行业对早期可能性的实际应用,如语言模型的应用。而现在,我认为我们正经历着一场堪比寒武纪大爆发的增长,这几乎可以说是爆炸式的。 不仅在文本处理方面,你还能看到像素、视频、音频等各种 AI 应用和模型的涌现。因此,这是一个极其振奋人心的时刻。
马丁·卡萨多(Martin Casado)
我对你们两位都非常了解,由于你们在该领域的杰出成就,很多人也对你们有所认知。然而,不是所有人对人工智能领域都很熟悉。因此,我们可能需要快速介绍一下你们的背景,让听众对你们有个基本的了解。
贾斯汀·约翰逊(Justin Johnson)
我第一次接触人工智能是在本科接近尾声的时候。当时我在加州理工学院学习数学和计算机科学,本科阶段的经历非常精彩。就在那段时期,一篇由 Google Brain 团队的研究人员撰写的著名论文问世,我因此第一次了解到深度学习的概念。这项技术令人叹为观止。
那时我初次接触到一种将在未来十余年中影响我职业生涯的技术方法,它旨在将通用而强大的学习算法与大规模计算能力和数据相结合,这种整合可以产生非凡效果。我大约在 2011 至 2012 年间发现了这一概念,并立刻感到这就是我未来想从事的领域。因此,我决定继续攻读研究生,以深入研究这一技术。
当时我了解到李飞飞在斯坦福大学,她是全球为数不多的从事这一领域研究的专家之一。那个时期专注于深度学习和计算机视觉是非常迷人的,因为那是这项技术从初期逐步扩展到广泛应用的重要阶段。我们见证了语言模型的进展,也看到了早期的判别式计算机视觉方法如何以不同方式理解图像内容。同时,我们还看到了生成式人工智能和生成模型的早期发展,涵盖图像和文本的生成。
在我攻读博士学位期间,许多核心算法的基础工作实际上已由学术界完成。有一段时间,我每天早上都期待像拆圣诞礼物般在 arXiv 上发现令人惊叹的新发现或新应用和算法。在过去两年中,全球的人们似乎也体会到了通过 AI 收获每日“圣诞礼物”的乐趣。但对那些在这个领域工作已久的人而言,我们其实早已体验过这样的感受。
李飞飞(Fei-Fei Li)
显然,我比 Justin 年长许多。我进入 AI 领域的途径与他不同,我的本科专业为物理学。物理学是一门教会你思考大胆问题的学科,引导你去探索世界上尚未解开的谜题。当然,在物理学中,这些谜题可能涉及原子世界、宇宙等。但这种训练思维的方式让我开始关注一个真正激发我想象力的大问题,即智能。因此,我在加州理工学院攻读了 AI 和计算神经科学的博士学位。尽管 Justin 和我在时间上并没有重叠,但我们都有加州理工学院这个共同的母校。
贾斯汀·约翰逊(Justin Johnson)
另外,还有加州理工学院的导师(Caltech)。
李飞飞(Fei-Fei Li)
是的,我们有同一位导师—你的本科导师和我的博士导师 Pietro Perona。在我攻读博士学位期间,类似你的博士阶段,人工智能在公众眼中似乎经历了一个低潮期。但我认为这只是暂时的沉寂,就像春天来临前的蛰伏一样,依然充满活力。机器学习和统计建模在那时展现出强大的能力。我自认为属于机器学习和人工智能的原生一代,而像 Justin 这样的人则属于深度学习的原生一代。可以说,机器学习是深度学习的前身,当时我们在尝试各种模型。
在我博士毕业并成为助理教授时,我注意到一个被忽视却在数学上对泛化能力提升至关重要的 AI 元素——数据。 当时,领域更多关注于贝叶斯模型的复杂性或内核方法等细节。然而,我和实验室的学生可能比大多数人更早意识到,数据能赋予模型强大的功能。因此,我们在 ImageNet 上进行了一次大胆的尝试。
那时,几乎没有人见过如此规模的数据集,因为通常的数据集只有数千条。在那时,自然语言处理领域有像 UC Irvine 的小型数据集,而计算机视觉领域类似,也仅有几千或几万个数据点。我们认为,我们需要达到互联网级别的数据规模,恰好在互联网逐渐成熟的时期,我们坚定地推动了这项工作。与此同时,我也来到了斯坦福大学。
马丁·卡萨多(Martin Casado)
我们经常讨论的是这些时期。例如,ImageNet 显然是一个开启了计算机视觉新纪元的时期,或者至少使其变得流行和可行。在生成式 AI 的浪潮中,我们提到两个核心突破:其一是 Transformer,也就是注意力机制;其二是稳定扩散模型。这种理解方式合适吗?也就是说,这两个算法突破源自学术界或谷歌,是否是所有进展的起源?还是说这个过程更有计划?又或者,是否还有其他重大突破在我们不常提及的情况下将我们带到了当前的局面?
贾斯汀·约翰逊(Justin Johnson)
我认为,计算能力是关键的突破点。我知道,AI 的发展历程通常也与计算能力息息相关,即便如此,我仍认为人们低估了这一点。在过去的十年中,我们见证了计算能力的惊人增长。
第一篇被认为在深度学习领域的计算机视觉方面取得突破性进展的论文是 AlexNet。这是 2012 年的一篇论文,其中一个深度神经网络在 ImageNet 挑战赛中表现出色,超越了李飞飞教授(斯坦福大学计算机科学教授)一直研究的其他所有算法,以及你在研究生阶段研究过的算法。
AlexNet 是一个拥有 6000 万个参数的深度神经网络,它在两块 GTX 580 显卡上训练了六天。这两块显卡是 2010 年推出的顶级消费级显卡。为了给这个话题提供一些背景,我昨晚查看了一些数据。NVIDIA 最新且最先进的显卡是 A100。你们中有人想猜测一下 GTX 580 和 A100 之间计算能力的差异有多大吗?
贾斯汀·约翰逊(Justin Johnson)
这个过程需要进行大量计算。昨晚我做了一个估算,比如一个为期两周的训练任务,如果使用两块 GTX 580,大约需要六天时间完成。但如果我们提升计算能力,使用一台 GB200 设备,这个任务只需不到五分钟。
李飞飞(Fei-Fei Li)
贾斯汀提到了一个非常好的观点。2012 年,关于 ImageNet 挑战赛的 AlexNet 论文实际上展示了一个经典的卷积神经网络(ConvNet)模型。而卷积神经网络的最早论文则可以追溯到 20 世纪 80 年代。我记得在研究生学习时就已经接触过这种技术。AlexNet 与之前卷积神经网络的主要区别在于,它使用了两个 GPU,并在训练过程中利用了大量的数据。
贾斯汀·约翰逊(Justin Johnson)
好的。
马丁·卡萨多(Martin Casado)
这是我想说的,我认为大多数人现在都熟悉所谓的“the bitter lesson”。意思是,如果你设计一个算法,不要让它过于复杂。要确保能够利用现有的计算能力,因为计算能力迟早会变得足够强大,这就是你所需要的。
然而,另一方面,另一种观点也似乎同样可信,那就是新的数据源实际上推动了深度学习的发展,例如 ImageNet 就是一个很好的例子。不少人认为 Transformer 中的自注意力机制具有很大优势,但他们也认为这是一种能够利用人类标注数据的方法,因为是人类为句子提供了结构。看看 CLIP,有人会说它可以通过利用互联网上人类使用 alt 文本注释的方式来标注图像。所以,这是一个关于数据而不是计算的故事。那么问题是,这两者中究竟是各自都有其作用,还是其中一个比另一个更为重要呢?
贾斯汀·约翰逊(Justin Johnson)
我认为是兼而有之,不过你提到了一个很好的观点。在我看来,算法的发展经历了两个截然不同的阶段。例如,ImageNet 时代实际上标志着监督学习的兴起。在监督学习阶段,我们拥有大量数据,但不知道如何有效利用。像 ImageNet 这样的数据集,需要对大量图像进行人工标注。所有的训练数据都是由人类标注者检查并描述的。算法的重大突破在于,我们能够利用未标注的数据进行训练。
马丁·卡萨多(Martin Casado)
作为一个没有 AI 背景的普通人,我认为,当你使用由人类生成的数据进行训练时,这些数据实际上已经经过了人类的标注,只是这种标注并不是显而易见的。
李飞飞(Fei-Fei Li)
我知道你会这么说,Martin。是的,从哲学角度看,这确实是一个非常重要的问题。然而,实际上,相比在像素领域,这个问题在语言方面的体现更为真实。
马丁·卡萨多(Martin Casado)
好的。
李飞飞(Fei-Fei Li)
是的,完全正确。
马丁·卡萨多(Martin Casado)
不过,我确实认为这是一个重要的区别,因为 CLIP 的标注确实是由人工完成的。我的理解是,这里意在说明,人类已经理清了事物之间的关系,然后你再去学习它们。因此,这些标注是由人类提供的,但更像是隐含的理解标注,而不是明确的标记。
贾斯汀·约翰逊(Justin Johnson)
是的,这些数据仍然是由人工标记的。在当前的监督学习模式下,我们的任务定义更加局限。因此,你需要明确我们想要识别的概念本体,是吗?如果像 Fei-Fei 那样创建 ImageNet,你和你的学生会花很多时间来决定该选择哪一千个类别参与到 ImageNet 挑战中。在那个时期的其他数据集中,比如用于目标检测的 COCO 数据集,他们也非常认真地考虑了应该纳入哪些 80 个类别。
马丁·卡萨多(Martin Casado)
让我们谈谈生成式人工智能。在你到来之前,我正在攻读博士学位,上了吴恩达的机器学习课程和 Daphne Koller 的贝叶斯理论课程。这些课程非常复杂,对我来说难度很大,大多涉及预测建模。记得你曾引领视觉领域的研究。
然而,在过去四年中,生成式人工智能技术开始崭露头角。对我来说,这是一个截然不同的领域。它不是识别物体,也不是进行预测,而是在创造一些东西。也许我们可以讨论一下如何取得这些关键进展,以及它为何与众不同。我们是否应该以不同方式看待它?这是否是连续性的一部分?
李飞飞(Fei-Fei Li)
非常有趣的是,即便在我读研究生的时候,生成模型就已经存在了。我们希望实现生成,但当时没有人关注。那时候我们甚至尝试用字母和数字进行一些实验。Geoffrey Hinton 也写过关于生成的论文。我们一直在思考如何实现生成。
事实上,从概率分布的角度,生成可以通过数学实现,但我们所生成的东西从未给人留下深刻印象。理论上生成的概念一直存在,但实际上未能成功。因此,我想提到 Justin 的博士研究。他对深度学习产生了浓厚的兴趣,于是来到我的实验室。他的整个博士研究记录了这一领域的发展历程,几乎就像一个小型故事。他的第一个项目与数据相关,我督促他进行研究,但他并不感兴趣。
贾斯汀·约翰逊(Justin Johnson)
回想起来,我学到了很多实用的知识。
李飞飞(Fei-Fei Li)
我很高兴你能这样认为。因此,我们已经让贾斯汀专注于深度学习领域,特别是研究如何将图像转化为文字。
贾斯汀·约翰逊(Justin Johnson)
整个过程大致可以分为三个不同的阶段。首先,是将图像和文字进行匹配。我们的目标是判断一张图像和对应文字之间的匹配程度。我的第一篇论文,也是我在博士期间和职业生涯中的第一篇学术出版物,就是关于利用场景图进行图像检索的研究。
李飞飞(Fei-Fei Li)
接着,我们开始从像素出发来生成图像,Justin 和 Andre 在这方面投入了大量的精力。然而,这仍然是一个信息损失非常严重的过程,因为在这个过程中,需要从像素世界中生成和提取信息。期间,Justin 离开去从事了一项非常知名的工作。这是首次有人实现了实时处理技术,是吧?
贾斯汀·约翰逊(Justin Johnson)
故事是这样的:2015 年,Leon Gatys 领导的团队发表了一篇名为《艺术风格的神经算法》的论文,展示了如何将现实世界的照片转化为梵高风格。虽然到 2023 年我们已经习以为常,但在 2015 年,这种方法非常新颖。当这篇论文在 arXiv 上发布时,我感到非常震撼,仿佛在脑海中打开了一扇新的大门。我迫不及待地想要理解这个算法,并尝试用自己的照片进行实验。
于是,我阅读了这篇论文,并在一个长周末里重新实现了这个算法并成功运行。这个算法相对简单,我的实现大约只用了 300 行 Lua 代码,因为当时我们使用的是 Lua Torch(基于 Lua 的深度学习框架)。那时还没有 PyTorch(深度学习框架)。尽管算法简单,但运行速度很慢。因为每生成一张图片需要进行一次优化循环,进行梯度下降。尽管生成的图片很美,但我希望能让它运行得更快一些。
李飞飞(Fei-Fei Li)
Justin 成功实现了这一点。我想,这实际上是你第一次看到学术研究对行业产生实质性影响。
贾斯汀·约翰逊(Justin Johnson)
当时,有一群人注意到了这种艺术风格迁移现象。因此,我和其他几个人同时想出了不同的方法来加速这个过程。然而,我的方法获得了最多的关注。
创办 World Labs 的契机
李飞飞(Fei-Fei Li)
在全世界尚未理解生成式 AI 之前,贾斯汀已经在博士研究的最后阶段就开始专注于生成式 AI 这一课题。我对此感到非常自豪,因为我当时全力支持他的研究。这段经历确实让我印象深刻。
李飞飞(Fei-Fei Li)
事实上,我们通过输入语言获得了完整的图像。这是生成式 AI 的早期作品之一,它采用了 GAN(生成对抗网络)技术,这项技术非常复杂。但问题在于,当时我们还无法处理自然语言。因此,Justin 在场景图领域作出了努力,我们必须使用某种场景图语言结构来描述图像,例如以图表方式表示羊群、草地和天空。
经过这样的处理,这些元素几乎构成了我们的图像,随后他与另一位杰出的硕士生 Grim 一起实现了这一技术突破。因此,您可以看到,从数据到匹配,从风格迁移到图像生成,我们开始注意到这些变化。您可能会问,这种变化是突然发生的吗?对于我们业内人士来说,这种变化已经持续了一段时间,但对于外界而言,结果看起来似乎有些突然。
马丁·卡萨多(Martin Casado)
我读了您写的书,在此也向我们的听众强烈推荐这本杰出的著作。您长期以来的研究和兴趣似乎主要集中在空间、像素和智能方面。现在,您正在参与世界实验室的工作,它涉及空间智能领域。您能谈谈这是否是您长期探索的一部分吗?为什么现在选择进行这个项目?是因为技术的进步,还是受到个人动机的驱动?能否为我们描述一下,您过去的人工智能研究是如何引导到如今在世界实验室的工作的?
李飞飞(Fei-Fei Li)
对我来说,这既是个人追求,也是智力上的探索。在整个学习旅程中,我都在追寻“北极星”般的激情,并且坚信这些“北极星”对于我们领域的发展至关重要。 在最初阶段,研究生毕业后,我认为我的“北极星”是通过图像讲述故事,因为在我看来,这是视觉智能中非常重要的一部分,是所谓的 AI 或 AGI 的一部分。但是,当我与 Justin 和 Andre 相遇时,我意识到这正是我的目标。
我该如何继续呢?这一切发生得如此迅速,我原认为实现这一目标需要耗费 100 年。然而,视觉智能是我的热情所在,因为我相信,了解如何观察世界、进行推理并与之互动,对于每一个智慧生物——无论是人类、机器人还是其他形式的生物都是基本的。视觉空间智能在导航、操作、创造事物,甚至对未来文明的建设中都扮演着基础角色。它与语言同样重要,甚至在某些方面更为古老和根本。
因此,在我看来,World Labs 的“北极星”自然是解锁空间智能。正如 Justin 所言,现在正逢其时。我们具备了必要的元素:强大的计算能力、对数据更深入的理解,相较 ImageNet 时代,这些已经复杂得多;在算法方面也有所进展,包括 WorldLab 的联合创始人如 Ben Mildenhall 和 Christoph Lassner 这样的神经网络领域专家。我们正处于一个契机,可以下定决心专注于解锁这项技术。
马丁·卡萨多(Martin Casado)
我想向正在收听的朋友们澄清一下:您正在创办一家公司,名为 World Labs。您经常使用“空间智能”来描述您们正在研究的问题。能否简单解释一下这是什么意思?
贾斯汀·约翰逊(Justin Johnson)
空间智能是指机器在三维空间和时间中进行感知、推理和行动的能力。它涉及理解物体和事件在三维空间和时间中的位置,以及这些交互如何影响其动态变化。空间智能的目标是使机器具备感知、推理、生成和互动的能力,真正将机器从主机或数据中心引入现实世界,使其能够理解复杂的现实环境。
马丁·卡萨多(Martin Casado)
所以,要明确的是,我们在讨论的是物理世界,还是仅仅在谈论一个抽象概念的世界?
贾斯汀·约翰逊(Justin Johnson)
我认为我们可以兼顾两者,这正是我们长期愿景的一部分。在创建虚拟环境或生成内容时,利用 3D 技术来改进定位,有很多好处。此外,即使在识别真实世界的场景时,我们也能够将三维理解应用其中。很好。
马丁·卡萨多(Martin Casado)
请大家注意,另外两位联合创始人 Ben Mildenhall 和 Christoph Lassner 在该领域中都是杰出人物,与其他知名专家齐名。这四位决定合力创办这家公司。我想探索为什么现在是这样一个合适的时机。
贾斯汀·约翰逊(Justin Johnson)
我的这段经历实际上是一个漫长的演变过程。在博士后期间,我开始思考如何成为一名独立的研究者,尤其是为未来的职业生涯奠定基础。那时,我在探索人工智能和计算机视觉领域中的重大问题。我得出的结论是,过去十年的重点是解析现有数据,而未来十年将着重于解析新数据。
已有的数据是指那些可能已经在线上存在的图像和视频,而新的数据将是包括智能手机等设备生成的数据,这些设备配备了新传感器并存在于三维世界中。这不再仅仅是从互联网上获取图像数据,然后判断某个东西是不是猫或者狗。我们希望利用这些图像作为物理世界的通用传感器。我们的目标是理解世界的三维和四维结构,不论是在现实物理空间还是虚拟生成的空间。
因此,在博士后期间,我与当时在 Facebook 人工智能研究院的一些同事在三维计算机视觉领域进行了重大转型,致力于推断物体的三维形状。随后,我对通过二维学习三维结构的想法产生了浓厚的兴趣。尽管三维数据难以获取,但它与二维数据之间有强大的数学关联。二维图像是三维世界的投影,其中蕴含了大量的数学结构。
因此,尽管我们拥有大量的二维数据,许多人已经在通过大量的二维观察中重构出世界的三维结构。到了 2020 年,你提到的突破时期,我们的联合创始人 Ben Mildenhall 发表了论文《Neural Radiance Fields (NeRF)》,这是一个非常简单且清晰的方法,可以通过二维观察推断三维结构,这为整个三维计算机视觉领域带来了巨大的推动力。
同期,还有一个外界不太理解的现象,这也是大语言模型兴起的时期。许多语言模型在学术界已经发展起来。早在 2014 年,我和 Andrej Karpathy 就在语言模型方面进行了早期的研究。我记得那些 LSTM、RNN、GRU 模型都是在 Transformer 架构之前发展出来的。但是到了 GPT-2 的时代,这类模型因为计算资源的限制,学术界很难再推进。
反观 Ben 提出的 NeRF 方法,只需在一个 GPU 上花几个小时就能训练完成。因此,许多学术研究者开始关注这类问题,因为它们不仅能解决核心算法问题,还能不依赖大量计算资源获得最先进的结果。正因为这一趋势,众多研究人员和学者开始从核心算法层面思考如何推进这一领域的发展。这时,我遇到了 Fei-Fei,我意识到我们其实…
马丁·卡萨多(Martin Casado)
她很有说服力。
贾斯汀·约翰逊(Justin Johnson)
她非常有说服力。然而,如同你所说,你在导师的指导下努力寻找到自己的研究方向。结果……哦,不!似乎有些事情逐渐走向一致。
李飞飞(Fei-Fei Li)
从我的角度来看,我想与一位名叫 Justin 的聪慧之士交流。我确实希望能谈论一个与像素有关的有趣技术问题或故事,而这往往是许多从事语言工作的人可能忽略的。
在生成式 AI 出现之前,在计算机视觉领域,我们这些研究像素的人实际上在”重建”和”3D 重建”这个研究领域已有很长的历史,可以追溯到 20 世纪 70 年代。我们会拍摄照片,因为人类有两只眼睛,通常从立体照片开始,然后通过三角测量计算几何形状,进而构建 3D 形状。这是一个非常复杂的问题,至今都没有被彻底解决,因为还涉及到对应性等困难问题。
因此,这整个领域代表了一种传统的 3D 思维方式,并一直在发展,取得了显著进展。然而,当 NeRF 及其在生成方法和扩散模型中的应用出现时,重建和生成过程开始紧密结合。实际上,在计算机视觉领域的短暂时间内,重建与生成变得难以区分。我们突然进入了一个时代,如果我们看到或想象某样东西,二者都可以被生成。对我来说,这是计算机视觉领域一个极其重要的时刻,但大多数人并未注意到,因为我们讨论它的时候远没有像大语言模型那样频繁。
语言本质上是纯粹的信号生成
马丁·卡萨多(Martin Casado)
在像素空间中,有一种用于重建真实场景的技术。如果无法直接观察到场景,就会使用生成技术,对吧?这些技术实际上非常相似。在整个对话过程中,你既讨论了语言,也谈到了像素。那么,也许现在是个合适的时机,来探讨空间智能以及你正在研究的内容如何与当前非常流行的语言方法进行比较。这两者是互补的,还是说它们是彼此独立的呢?
贾斯汀·约翰逊(Justin Johnson)
是的,我认为它们具有互补性。
马丁·卡萨多(Martin Casado)
我不是想过多指导你,也许我们只需要比较一下它们。人们可能会说,他们了解 OpenAI、GPT 和多模态模型,知道很多都涉及图像像素和语言。那么,这些不正是空间推理所需的要素吗?
贾斯汀·约翰逊(Justin Johnson)
为了理解这些系统的工作原理,你需要稍微揭开它们的“黑箱”。目前的语言模型和多模态语言模型,其底层表示都是一维的序列。我们讨论上下文长度、Transformer、序列和注意力机制,但归根结底,它们对世界的表示仍是一维的。
换句话说,这些系统主要通过一维标记序列进行运作。在语言处理方面,这种表示方式自然而然,因为书写文本本身就是由离散的字母构成的一维序列。这种底层表示推动了大语言模型(LLM)的发展。当涉及多模态大语言模型时,它们也试图将其他模态强行整合到这一维标记序列的表示中。
然而,转向空间智能时,情况有所不同,因为需要强调世界的三维特性。这种算法视角为我们提供了全新的数据处理方式,能够产生不同类型的输出,解决略有不同的问题。即使大致来看,多模态大语言模型能够处理图像,但我认为它们并不是基于三维表示来处理的。
李飞飞(Fei-Fei Li)
我完全赞同 Justin 的观点。我认为讨论一维表征与基本上三维表征之间的区别是核心差异之一。另一个角度虽稍具哲学性,但对我来说确实重要,那就是语言本质上是纯粹的信号生成。 语言在自然界中并不存在,你不会在天空中看到文字。无论输入什么样的数据,我们几乎都能以足够的泛化能力输出相同的数据,这就是语言之间的转换。
然而,三维世界不同。三维世界是真实存在的,它遵循物理法则,由材料等各种因素决定其结构。要从根本上解析、表示和生成这些信息,是一个完全不同的问题。我们可能会借鉴语言及大语言模型(LLM)中的某些理念或基础概念,但在我看来,这是一个根本上、哲学上截然不同的问题。
马丁·卡萨多(Martin Casado)
因此,语言可以被视为一种一维的表达方式,对于物理世界而言可能是一种较弱的表示,因为它是人类创造的,在信息传递过程中可能会有损失。而生成式 AI 模型则涉及另一种形式的表达:像素,也就是二维图像和视频。例如,当你观看视频时,可能会觉得它展示了三维的场景,因为可以通过移动摄像机或其他手段看到更多的视角。那么,如何理解空间感知能力与二维视频之间的区别呢?
贾斯汀·约翰逊(Justin Johnson)
在思考这个问题时,我发现将其划分为两个部分非常有帮助:第一是低级表示形式,第二是面向用户的功能设计。这里可能会有些混淆,因为严格来说,我们看到的是二维图像。我们的视网膜是一个二维结构,并且我们有双眼。因此,从本质上讲,视觉系统感知的是二维图像。然而,根据采用的表示方式,功能设计可能显得更自然或不自然。即便最后呈现的是二维图像或视频,你的大脑依然将其感知为三维世界的投影。
在某些情况下,你可能希望执行一些操作,比如移动物体或改变视角。理论上,你可以通过纯二维的表示和模型实现这些功能,但这不符合模型需求。例如,将动态三维世界的二维投影进行建模是一种可能实现的功能。而如果将三维表示作为模型的核心,模型的表示方式就更适合执行这些任务。因此,我们的构想是,通过在后台引入更多的三维表示,来为用户提供更优质的使用体验。
李飞飞(Fei-Fei Li)
这也回到了北极星的概念。为什么我更关注三维智能,而不是二维像素智能呢?这是因为我认为智力的发展趋势必然会涉及到 Justin 所说的可供性。观察进化过程可以发现,智力的发展最终使动物和人类,特别是人类,能够在世界中移动、互动、创造文明、生活,甚至制作三明治,无论在这个三维世界中做什么。而将这些转化为技术时,这种原生的三维特性对于可能的应用至关重要,即使有些应用以二维形式呈现。在我看来,这种智能本质上是三维的。
马丁·卡萨多(Martin Casado)
我认为这是一个既复杂又极其关键的问题。因此,我觉得值得深入探讨。而一个很好的方式就是通过讨论实际的应用案例。为了统一我们的讨论方向,我们正在谈论开发出一种技术,可以称之为模型,它能够实现空间认知智能。那么,从抽象的层面来看,它会是什么样子?具体来说,它可以应用于哪些潜在的场景呢?
贾斯汀·约翰逊(Justin Johnson)
我相信,我们能够想象出具备空间智能的这些模型随着时间的发展,会执行各种任务。其中一个令我兴奋的应用是世界生成。我们已经习惯了文本生成图像的工具,现在也开始看到文本生成视频的应用,你输入一张图片或一个视频,就能得到令人惊叹的图像或两秒钟的精彩视频片段。
然而,我设想这项技术能够更进一步,发展到生成 3D 世界。由此可见,未来空间智能将帮助我们把这些体验提升到 3D 形式,届时我们不仅能获得图像或视频片段,而是一个完整模拟、生动互动的 3D 世界。
李飞飞(Fei-Fei Li)
用于游戏吗?
贾斯汀·约翰逊(Justin Johnson)
这项技术可以用于游戏,也可以用于虚拟摄影。如果成功应用,将有成千上万的应用场景。
李飞飞(Fei-Fei Li)
这是否用于教育目的?
贾斯汀·约翰逊(Justin Johnson)
在教育领域,我认为这在某种程度上引领了一种新型媒体形式的发展。我们已经能够创造虚拟互动世界,但这需要耗费数亿美元和大量开发时间。因此,人们将这项技术主要应用于视频游戏领域。我们可以创造能够提供非凡体验的虚拟互动世界,但由于开发成本高昂,目前经济上可行的方式是通过销售数量庞大的游戏来回收投资,每个游戏售价约 70 美元。
如果我们能以更低的成本创造同样的虚拟、互动和生动的 3D 世界,这项技术就可以应用于许多其他领域。试想一下,如果你能享受质量和细节堪比耗资数亿美元制作的 AAA 级电子游戏的个性化 3D 体验,而且这种体验甚至能满足只有少数人感兴趣的小众需求。这并不是一个具体的产品或路线图,但我认为,这正是生成式领域中空间智能所促成的新型媒体的愿景。
马丁·卡萨多(Martin Casado)
当我想到一个虚拟世界时,我不只是关注场景的生成。我还会考虑运动和物理属性。因此,理论上,这些是否包含在内呢?然后还有第二个问题……答案是肯定的。如果我能够与之互动,那么……是否存在语义?意思是,比如当我打开一本书时,其中有没有页面?页面上是否有文字?这些文字能否传达信息?我们是在讨论一个全面的实验,还是在谈论一个静态的场景?
贾斯汀·约翰逊(Justin Johnson)
随着时间的推移,我相信这项技术将逐渐发展。这确实是一项艰难的任务。因此,我认为在固定条件下解决问题相对简单一些。然而,最终我希望这项技术能够实现完全动态和完全可操作,具备您刚才提到的所有功能。
李飞飞(Fei-Fei Li)
我的意思是,这就是空间智能的定义,确实如此。因此,这将是一个逐步发展的过程。我们会先从较为静态的方面开始,但你所提到的所有内容都包含在空间智能的发展蓝图中。
贾斯汀·约翰逊(Justin Johnson)
通过公司的名字“World Labs(世界实验室)”,我们可以发现其背后蕴含的深意:即构建和理解世界。实际上,这种含义只有“业内人士”才能全面理解。在向他人解释这一名字时,我发现他们往往难以领会。
在计算机视觉、重建与生成领域,通常我们会根据任务的复杂性进行分类。第一个层次是对象,如麦克风、杯子、椅子等,这些是构成世界的独立物品。许多类似于 Fei-Fei 所研究的 ImageNet 内容,都是关于识别世界中的这些对象。
接下来是更高级别的,那就是场景。场景由多个对象构成,例如这个录音室,里面有桌子、麦克风和坐着的人,它们是某些对象的组合。而我们设想的世界是超越场景的更高层次。虽然场景可能看似相对独立,但我们希望打破界限,走出房间,来到街道,看到车辆呼啸而过,树叶在风中摇曳,并能够与这些事物互动。
李飞飞(Fei-Fei Li)
另一个非常令人兴奋的地方在于“新媒体”概念的提出。随着这项技术的发展,现实世界与虚拟世界、想象世界、增强世界或预期世界之间的界限变得模糊。比如说,现实世界是 3D 的,对吧?在数字世界中,你需要用 3D 环境来展示,才能与现实世界融为一体。2D 或 1D 的形式无法有效地与真实的 3D 世界互动。这项技术解锁了这样的可能性,使其应用场景几乎无限。
马丁·卡萨多(Martin Casado)
是的,Justin 提到的第一个用例就是创建一个可以用于多种用途的虚拟世界。你所提到的可能更偏向于增强现实,对吗?
李飞飞(Fei-Fei Li)
就在 World Lab 成立时,Apple 发布了 Vision Pro,并使用了“空间计算技术”这个词。我们几乎觉得我们的名字被他们抢走了,但我们是“空间智能”。 空间计算确实需要空间智能,这无疑是真的。我们还不确定它会以什么形式的硬件出现,可能是头戴设备、眼镜,甚至隐形眼镜。这种接口可以接入现实世界,并基于此执行各种操作。不论是帮助你在非专业的情况下提升处理机器和修理汽车的能力,还是用于娱乐,例如一个更高级版的 Pokemon Go。这项技术迅速成为 AR、VR 和 MR 的基本操作系统。
贾斯汀·约翰逊(Justin Johnson)
在极端应用场景下,增强现实(AR)设备应具备哪些功能呢?这应是一个始终在线、随身携带的设备,能够感知并理解你周围的世界,甚至帮助你完成日常任务。虚拟与现实的结合让我感到非常兴奋,这种融合变得至关重要。如果能够实时、精准地理解周围三维环境,实际上可以减少我们对物理显示设备的依赖。
想象一下,我们现在有多少种不同尺寸和用途的屏幕:手机、iPad、电脑显示器、电视,甚至是手表。在不同环境下,这些设备向我们呈现信息。如果能够无缝地将虚拟内容与现实世界融合,对这一系列设备的需求将会减少。理想状态下,它可以在合适的时机和地点,以你所需的方式无缝展示信息。
李飞飞(Fei-Fei Li)
另一个能将数字虚拟世界和三维物理世界融合的重要例子是自主代理在现实中执行任务的能力。比如,当人们需要利用这些 MixR 设备完成任务时,即使我不会修车,但如果需要修车,我只需戴上这种护目镜或眼镜,便能立刻获得指导。
此外,还有其他类型的代理,比如各类机器人,不仅限于人形机器人。它们的界面与三维世界性质相似,其运算逻辑——即它们的大脑——实际上属于数字世界。那么是什么将机器人大脑的学习与现实世界中的大脑行为连接起来呢?关键在于空间智能化。
马丁·卡萨多(Martin Casado)
你已经提到了虚拟世界、增强现实和物理世界,尤其是在机器人技术中,物理世界尤为重要。对于任何公司而言,涉足这些多个不同领域都是一个巨大的挑战,特别是在进入每一个具体应用领域时。请问你如何看待深度技术与这些具体应用领域之间的关系?
李飞飞(Fei-Fei Li)
我们将自己视为一家深度科技公司,提供可应用于多种用例的模型平台。
贾斯汀·约翰逊(Justin Johnson)
其实在读研究生的时候,我就买了我的第一台 VR 头显。它确实带来了颠覆性的体验。第一次戴上时,你会感到惊叹,这实在难以置信。我想很多人在第一次使用 VR 时都会有这种感受。因此,我一直对这个领域很感兴趣。我特别喜欢 Vision Pro,为了抢首发设备,我甚至熬夜。尽管如此,我认为作为一个平台,它似乎还没有做好准备,以吸引大众市场的关注。
李飞飞(Fei-Fei Li)
我们很有可能进入一个比其他市场更加成熟的市场。
贾斯汀·约翰逊(Justin Johnson)
简单性和普遍性有时是可以共存的,对吧?我们致力于成为一家深科技公司,并相信某些根本性问题如果得到完善的解决,将可以广泛应用于许多不同领域。我们确实将公司的长远发展视作追求并实现广泛空间智能的梦想。
马丁·卡萨多(Martin Casado)
因此,这需要构建许多相关技术。
贾斯汀·约翰逊(Justin Johnson)
是的,我认为这是一个非常棘手的问题。有时候,非 AI 领域的人可能将 AI 视为一个全能的整体,但对我们这些长期从事这个领域的人来说,创建任意 AI 尤其是特定项目时,必须有多种不同的才能协作配合。我们讨论了一些数据问题和我在博士期间研究的算法,但除此之外,还有很多其他工作需要完成。
我们需要高质量的大规模工程,深入理解三维环境,而且在许多方面需要与计算机图形学结合,因为它们以不同的角度解决了许多相同的问题。因此,我们在构建团队时,考虑的是如何在各个必要的子领域中找到全球顶级的专家来完成这一艰巨的项目。
李飞飞(Fei-Fei Li)
当我想到如何为 World Labs 组建最佳创始团队时,最让人印象深刻的是一群杰出的跨学科创始人。Justin 自然成为我的首选之一,请恕我直言,他不但是我最优秀的学生之一,还是最有才华的技术专家。
除此之外,还有两位我仰慕已久并与 Justin 合作过的名人。第一位是 Ben Mildenhall,我们曾探讨过他在 Nerve 项目中的开创性工作。另一位是 Christoph Lassner,他在计算机图形学领域声名显赫,尤其以五年前对 3D 建模的高斯斑点表示的研究而闻名。当提到与 Christoph Lassner 合作的可能性时,Justin 甚至激动得从椅子上跳了起来。
马丁·卡萨多(Martin Casado)
Ben 和 Christoph 是传奇人物。请谈谈你们在扩充团队时的考虑,因为我们在很多领域都需要进行建设和工作,不仅仅是 AI 或图形,还有系统等其他方面。
李飞飞(Fei-Fei Li)
到目前为止,我个人最为自豪的是我们这支杰出的团队。我有幸与职业生涯中遇到的最聪明的年轻人们一起工作,他们皆来自顶尖大学,而我曾是斯坦福大学的教授。然而,World Labs 汇聚的人才的确非同寻常。我从未见过如此密集的卓越人才。
我认为,这里的最大差别在于我们对空间智能的坚定信念。 无论是系统工程、机器学习基础设施、生成模型、数据,还是图形领域,每一位具备跨学科才能的人才,无论他们在个人研究、技术发展甚至个人爱好方面的成就如何,我们都坚信,应在此时此地与这些人才共同推动空间智能的发展。我们的创始团队正是在这样的信念鼓舞下集结而成。这样的能量和人才的聚集让我倍感敬畏。我对这样的团队充满了热爱。
马丁·卡萨多(Martin Casado)
我知道你有一个像北极星一样的目标。北极星的特点之一是实际上无法真正到达它,因为它在天空中,但它是一个很好的导航工具。那么,你是如何判断自己实现了目标呢?或者,这个目标是否是一个无期限的终身追求?
李飞飞(Fei-Fei Li)
首先,有真实的北极星和虚拟的北极星。有时你可以到达虚拟的北极星。
马丁·卡萨多(Martin Casado)
在世界模型中。
李飞飞(Fei-Fei Li)
正如我所预料的那样,我曾经以为图像故事叙述需要 100 年才能实现的目标之一。但是,在我看来,Justin 和 Andre 帮助解决了这个问题,我们因此更接近目标了一步。对我来说,当许多个人和企业开始使用我们的模型来满足他们对空间智能解决方案的需求时,我意识到我们已经达到了一个重要的里程碑。
贾斯汀·约翰逊(Justin Johnson)
是的,我不认为我们能够达到那样的境地。我认为这一点非常基本,比如宇宙是一个巨大且不断演化的四维结构,而广义空间智能就是深入理解这个结构并找出所有相关的应用。因此,我认为我们今天有一套特定的想法,但我相信,这段旅程将会带我们去到目前无法想象的地方。
李飞飞(Fei-Fei Li)
优秀技术的魅力在于能够开启更多的可能性和未知领域。 因此,我们将继续努力推动技术进步,而这些可能性也将不断扩展。
马丁·卡萨多(Martin Casado)
非常感谢你,Justin,也谢谢你,Fei-Fei。真是太精彩了。
李飞飞(Fei-Fei Li)
谢谢你,Martin。