万字采访｜唯一反调，图灵奖得主杨立昆反对大语言模型（上）

杨立昆（Yann Lecun）最近又开始频上头条。

事情的起因是他和 Elon Musk 最近在社交媒体 X 上展开了一场激烈的辩论，或者直接称为骂战。杨立昆以其直言不讳和坚定立场著称，他从 xAI 融资新闻官宣时发的招聘广告开始嘲讽 Elon Musk，随之 Elon Musk 又对他沉浸学术研究而没有商业成果发起攻击。在和 Elon Musk 这场争辩之前，杨立昆也多次批评 OpenAI，包括 OpenAI 的离职风波，以及对大语言模型的影响力和 AGI 的威胁。

作为 Meta 的首席 AI 科学家，纽约大学教授，图灵奖得主，也是人工智能史上的重要人物，杨立昆和 Meta AI 一直大力支持开源 AI 的发展，并且通过开源他们的一些主要模型来实践这一点，包括 Llama 2 以及最终的 Llama 3。杨立昆也一直公开批评那些在 AI 社区中警告人工通用智能（AGI）即将带来危险和存在威胁的人。他相信终有一天人工通用智能会被创造出来，但它会是积极的，不会逃离人类的控制，也不会主宰并消灭所有人类。

杨立昆多次提出目前 AI 的能力完全在人类的控制中，大语言模型缺乏对物理世界的理解，离接近人类水平的智能还非常遥远。在两个月前的播客中，Lex Fridman 采访了杨立昆。这次访谈深入探讨了 AI 伦理、大语言模型的局限性以及技术发展的未来。我们可以通过这期采访内容，来深入了解杨立昆在诸多骂战背后秉持的观点背后的原因是什么。

Lex Fridman，是一位广受欢迎的播客主持人，以其深入探讨科技、AI、哲学和人类未来等主题而闻名。他也是 MIT 的研究科学家，专注于机器学习和自动驾驶技术的研究。他的播客《Lex Fridman Podcast》吸引了包括马斯克在内搭众多顶尖科学家、工程师和思想领袖参与对话，成为科技领域的热门节目。五年前，OpenAI 的几位联合创始人就是他播客节目的常客。

尽管身为技术的倡导者，Lex Fridman 也不断质疑技术对人类社会的深远影响。本次采访中，Lex Fridman 身为挑战者的角色，对杨立昆提出多次追问，以下是本次采访内容的原文翻译上半部分，我们作了不改变原意的删减。

大语言模型不理解物理世界

莱克斯·弗里德曼（Lex Fridman）：

你对人工智能未来发展的一些见解和技术声明非常引人注目。最近，实际上在你整个职业生涯中，尤其是近期，你提到，自回归的大语言模型并不是我们向着超人类智能进步的途径。这些包括了像 GPT-4 这样的大型语言模型，以及即将推出的 Llama 2 和 3 等。它们为什么不能完全帮助我们实现大的飞跃？

杨立昆（Yann Lecun）：

原因有几个。首先，智能行为有许多特点，例如理解世界，包括物理世界的理解能力，记忆和回忆事物的能力，持久记忆，推理和计划能力。 这些是智能系统或生物体，比如人类和动物的四个核心特征。大语言模型要么做不到这些，要么只能以非常简陋的方式做到。它们实际上并不真正理解物理世界，没有真正的持久记忆，不能真正进行推理，更不用说规划了。所以，如果你期待一个系统在缺乏这些能力的情况下变得智能，那就是误区。

这并不是说自回归的大语言模型没有用处，它们当然有用，它们不仅引人入胜，我们当然可以围绕它们开发整套应用程序。但是，作为实现人类级别智能的途径，它们缺少了关键的成分。

还有一个小趣闻或事实非常有趣，这些大语言模型是通过大量文本训练的，基本上包括了互联网上所有公开可获得的文本。通常是 10 的 13 次方个 token，每个 token 大约有两个字节，因此训练数据大约有 2 乘以 10 的 13 次方字节。以每天 8 小时的阅读速度，你我可能需要 17 万年才能读完这些，看起来它们能积累大量的知识，但实际上这并不尽然。

如果你询问发展心理学家，他们会告诉你一个四岁的孩子在他的一生中已经清醒了大约 16,000 个小时。在这四年里，孩子的视觉皮层接收到的信息量约为 10 的 15 次方字节。我们可以通过估算视神经大约每秒传送 20 兆字节来得出这个数字。因此，对于一个四岁孩子来说是 10 的 15 次方字节，而对于阅读了 17 万年的内容来说则是 2 乘以 10 的 13 次方字节。

这意味着，通过感官输入，我们接收到的信息量远远超过通过语言得到的信息，尽管直觉可能不这么认为，但我们学到的大多数知识实际上是通过观察和与现实世界互动得来的，而不是通过语言。 我们在生命初期以及动物所学到的一切，都与语言无关。

莱克斯·弗里德曼（Lex Fridman）：

有必要挑战一下你所提到的一些直觉背后的想法。的确，人类大脑接收到的数据量比我们想象的要大得多，而且人类大脑能够迅速学习并快速筛选这些数据。有人可能会辩论说，与感官数据相比，语言已经高度压缩，它包含的信息量远超过存储它所需的字节数。如果与视觉数据相比，语言蕴含了大量的智慧，单词及其组合方式本身就包含了丰富的信息。那么，是否有可能单凭语言就已经包含了足够的智慧和知识，足以基于这些语言构建出一个世界模型，对世界有一个理解，包括那些大语言模型所缺失的对物理世界的理解呢？

杨立昆（Yann Lecun）：

这是哲学家和认知科学家之间的一个重大议题，也就是智能是否需要在现实的基础上，我确信智能不可能脱离某种实际存在而显现。 它不必是我们所知的物理实际，也许是模拟的，但环境远比我们所能用语言表达的要丰富得多。语言只是一种非常粗略的表达方式，用来描述我们的感知和心理模型。实际上，很多任务我们都是通过操作一个关于当前情境的心理模型来完成的，这与语言毫无关系。

无论是物理的、机械的，还是在我们构建某物、完成某个任务时，比如抓取物品等，我们都是通过计划行动序列并通过想象这些行动的结果来实现的。这需要的心理模型与语言几乎没有太多关系，我认为我们的大多数知识都源于与物理世界的这种互动。 因此，很多对计算机视觉等领域感兴趣的同事们都认同这个观点，即 AI 需要被具体化。

另一方面，有些来自自然语言处理（NLP）领域的人，或许由于其他一些原因，并不完全赞同这种看法，哲学家们对此也意见不一。世界的复杂性是难以想象的，你知道，很难表达所有我们在现实世界中视为理所当然的复杂性，我们甚至不会想到这些复杂性需要智能来处理。这就是机器人学先驱和系统模型控制（SMC）领域的莫拉维克悖论（Moravec Paradox），他提出了这样一个问题：为什么使用计算机能轻易地完成诸如下棋、解决积分这样的高级复杂任务，而我们每天理所当然地做的事情，比如学开车，却显得不那么简单呢？

编辑注：莫拉维克悖论（Moravec Paradox）是由机器人学家 Hans Moravec 提出的一个观察，指出了人工智能和机器人在模拟高层次认知任务（如逻辑推理、象棋）方面相对容易，而在低层次的感知和运动技能（如走路、抓取物体）方面却异常困难。这一悖论挑战了人们对智能和技能复杂性的直觉理解，表明那些在生物学上发展了数百万年的技能（如视觉和运动控制）实际上比抽象的认知任务更为复杂。

我们可以利用计算机来抓取物体，而且我们拥有能通过法律资格考试的大语言模型，这意味着它们很智能，但奇怪的是，它们却不能像 17 岁的青少年一样在 20 小时内学会驾驶，也不能像 10 岁的孩子那样迅速学会整理餐桌和装洗碗机。这是为什么呢？我们究竟缺少了什么？是某种学习或推理的架构吗？或者是其他什么东西阻碍了我们制造出自动驾驶汽车和家用机器人？

可以构建世界模型，但通过大语言模型不行

莱克斯·弗里德曼（Lex Fridman）：

大型语言模型能否构建一个世界模型，它确实知道如何驾驶并且知道如何给洗碗机装水，但只是不知道此时如何处理视觉数据，因此它可以在概念空间中运作？

杨立昆（Yann Lecun）：

这正是许多人正在研究的问题。简短的答案是：不能。

更复杂的答案是：你可以使用各种技巧让大语言模型理解视觉信息，例如图像、视频或音频，经典的方法是用某种方式训练视觉系统，我们有多种训练视觉系统的方法，包括监督学习、半监督学习、自我监督学习等，这些方法能将任何图像转换成高级别的符号表达，与大语言模型输入的符号非常相似，然后把这些符号与文本一起输入给大语言模型，在训练过程中，模型将学会使用这些符号来辅助决策。

这样的研究已经进行了很长时间，现在我们可以看到带有视觉扩展的大语言模型，但它们更像是一种捷径，因为这些系统并不是从头到尾训练以真正理解的。它们并未接受过视频训练的世界。例如，它们实际上并不真正懂得直觉上的物理规律，至少现在还不行。

莱克斯·弗里德曼（Lex Fridman）：

所以你不认为直觉物理学、关于物理空间、物理现实的常识推理对你来说没有什么特别之处。这对你来说是一个大语言模型无法做到的巨大飞跃？

杨立昆（Yann Lecun）：

我们不可能用我们现在正在使用的那种大语言模型来做这件事，原因有很多，但主要原因是大语言模型的训练方式：你拿一段文字，去除其中的一些单词将它们遮盖，用空白标记代替，然后训练一个生成式神经网络去预测那些缺失的单词。如果你特定地构建这个神经网络，让它只能看到它试图预测的单词左边的单词，那么你就得到了一个系统，基本上是在尝试预测文本中的下一个词。然后你可以输入一个文本提示，并要求它预测下一个词，它永远不会精确预测下一个词，所以它会生成一个概率分布，覆盖字典中所有可能的单词。

实际上，它预测的不是单词，而是标记（token），这些是亚词单元，这样就能轻松处理预测中的不确定性，因为字典中可能的单词数量是有限的，你只需计算出一个分布。接下来，系统会从那个分布中选择一个单词，自然分布中概率较高的单词被选中的机会也更大，因此你从那个分布中抽样，以产生一个单词，然后你将那个单词移入输入，这样系统就能继续预测第二个词了。

一旦你这样操作，你就把它放入输入中，这种预测方式被称为自回归预测，这也是为什么这些大语言模型应该被叫做自回归大语言模型，但我们一般简称它们为大语言模型。

这一过程和另一种不同的过程有区别在后者中，在我们生成一个词之前，比如在我们双语者交谈时，我们会先思考要说的内容，这一点与我们打算用哪种语言表达它几乎无关。比如我们在讨论数学概念时，我们的思考过程和我们计划给出的答案，并不会因为我们用法语、俄语还是英语而改变。

莱克斯·弗里德曼（Lex Fridman）：

这确实让我们回到一个我认为的基本问题：能否构建一个真正完整的世界模型？不必是全面无缺的，但至少是一个对世界有深刻理解的模型。

杨立昆（Yann Lecun）：

首先，我们能通过预测来构建这样一个模型吗？答案很可能是肯定的。但是，通过预测语言来构建它可能吗？答案很可能是否定的，因为语言在信息量上非常有限，可以说是弱或者带宽很低——简言之，信息量不足。因此，建立世界模型意味着需要观察世界，并理解世界为何按照这种方式演变。

而世界模型的另一个关键组成部分是一种能够预测，当你可能采取某个行动时，世界将如何演变的能力。所以这里的世界模型实际上是：这是我对当前世界状态的理解，这是一个我可能会采取的行动，预计在下一个时刻世界将是什么状态。

这个世界状态不需要包含世界的全部细节，它只需包含足够多与计划行动相关的信息。但现在问题来了，你不可能通过生成式模型来实现这一点。 生成模型是基于视频训练的，我们尝试这样做已经有 10 年了，你向系统展示一段视频，然后让它预测视频的剩余部分，基本上是预测接下来会发生什么，每次一帧地进行预测，就像自回归的大语言模型（LLM）对文字进行处理那样。

在 Meta 的 Fair 实验室，我和一些同事试图这么做已经有 10 年之久，并且你不能像处理语言模型（LM）那样使用同样的方法，就像我之前说的，我们无法精确预测一个单词序列后面会出现哪个词，但我们可以预测词的概率分布。

而对于视频，你需要预测视频中所有可能帧的概率分布，这是我们目前还不太清楚如何做到的。我们还不知道如何有效地表达高维连续空间的分布，这正是我们面临的主要难题。 我们之所以能处理文本，是因为真实世界比文本更加复杂和信息丰富。文本是离散的，而视频则是高维且连续的，涉及许多细节。

例如，如果我录制这个房间的视频，镜头在房间里转动，我就无法预测转动过程中会看到哪些东西。 系统也无法预测摄像机转动时会看到什么，它可能只能预测到这是一个有灯和墙壁的房间，但它无法预测墙上的画作是什么样子，或者沙发和地毯的纹理是怎样的。因此，我们无法预测所有这些细节。

处理这一问题的一种可能方法，我们研究了很长时间，就是构建一个包含所谓潜变量的模型。 这个潜变量输入到一个神经网络中，它代表了你还未感知到的所有关于世界的信息，并且这些信息是系统进行精确像素预测所必需的，包括地毯和沙发的精细纹理，以及墙上画作的细节。

不过，这个方法基本上是失败的，我们尝试了很多方法，包括直接使用神经网络、生成对抗网络（Gans）等。我们试验了众多类型的规范化自动编码器，也探索了许多其他方法。我们还尝试用这些方法来学习图像或视频的优质表征，这些表征之后可以作为输入，比如用于图像分类系统。

这些尝试基本上都以失败告终，就像所有试图预测图像或视频缺失部分的系统一样。你知道的，从损坏的图像或视频版本出发，正确的做法是，拿一张图像或视频，将其损坏或以某种方式转换，然后尝试从这个损坏的版本重建出完整的视频或图像，并期望系统内部能够自行形成能够用于物体识别、分割等任务的优秀图像表征。这基本上完全失败了，而对文本来说，这种方法效果非常好，这正是大语言模型采用的原理。

联合潜入预测架构 JEPA 证明有效

莱克斯·弗里德曼（Lex Fridman）：

那么，失败的原因到底是什么呢？是不是因为很难形成一个优秀的图像表征，一个能够嵌入所有重要图像信息的优秀嵌入？还是因为构成视频的一帧帧图像之间的一致性问题？如果我们制作一个失败的集锦，那会是什么样子呢？

杨立昆（Yann Lecun）：

我得明确告诉你哪些方法不起作用，因为确实有一些方法是有效的。

不起作用的方法是训练一个系统，通过重建一个从损坏版本中重建出来的优秀图像来学习图像表征。我们有一整套技术来尝试这个方法，包括各种自动编码器的变体，比如我的一些同事在 Fair 开发的叫做 MAE 的屏蔽自动编码器，这基本上就像，大语言模型或者类似的东西，你通过损坏文本来训练系统，但区别在于你是在损坏图像，你从中移除部分内容。

你训练了一个庞大的网络来重构特征，可是得到的特征效果并不理想，你知道它们不理想，因为如果你用同样的网络架构进行有监督的训练，即使用带有文本描述的图像标签数据，你会得到很好的特征表示，在识别任务上的表现远远超过自监督的自由训练。所以说，网络架构是没问题的，编码器的架构也是合格的，但是训练系统去重建图像并没有让它学到好的、通用的图像特征。

现在我们不再训练系统去编码图像，然后让它从损坏的版本重建整个图像，而是拿到完整的图像和损坏或变换后的版本，通过两个编码器进行处理，这些编码器通常是相同的，但也可以不同。然后你在这些编码器的基础上训练一个预测器，来预测损坏版本的表示如何转化为完整输入的表示。这就是联合嵌入。

因为你同时处理了完整输入和损坏或变换版本，并通过编码器，得到一个联合的嵌入表示，然后你尝试预测从损坏版本的表示到完整版本的表示。我将其称为 JEPA，代表联合嵌入预测架构， 因为它是联合嵌入的，并且有一个预测器来预测好的版本的表示，从坏的版本出发。

最大的问题是，怎么训练这样一个系统呢？直到五六年前，我们对于如何训练这些系统还没有特别有效的方法，除了一种被称为对比学习的技术。 对比学习的核心思想是我们会用一对图片，其中一张是原图，另一张是以某种方式被损坏或降级的版本，然后训练模型去预测，使得它的表征尽可能与原图一致。如果仅仅进行这样的训练，系统会发生崩溃，它会忽略输入，生成的表征也会失效。

对比方法的目的就是为了避免这种情况，这类方法自 90 年代早期就已经存在，我在 1993 年就发表了一篇关于这方面的论文。你不止需要展示相同的图片对，还要展示不同的图片对，并把它们的表征分开，这样不仅强调相同事物应该有相似的表征，还强调不同事物的表征应该有所区别，这样可以防止模型崩溃。但这种方法有其局限性，过去六七年间，出现了很多新技术，这些技术让这一方法重新焕发活力，它们中的一些来自于 Fair，一些来自谷歌和其他机构。不过，对比方法还是有其局限性。

在过去的三四年里，情况有了变化，现在我们有了非对比法，这种方法不需要用到我们知道是不同的负样本图片，你只需要不同版本或不同视角的同一事物的图片就可以进行训练，并依靠其他技巧来防止模型崩溃，目前我们已经有了大约十二种不同的方法。

莱克斯·弗里德曼（Lex Fridman）：

那么，联合嵌入架构和大语言模型之间的根本区别是什么呢？JEPA 能否带领我们实现先进的机器智能？

杨立昆（Yann Lecun）：

这是第一步。首先，与 LLMs 这样的生成式架构有什么区别？因此，LLMs 或通过重建训练的视觉系统会生成输入。它们生成未损坏、未转换的原始输入，因此您必须预测所有像素，并且系统中花费了大量资源来实际预测所有这些像素和所有细节。在 JEPA 中，您并不试图预测所有像素，您只是试图预测输入的抽象表示。 这在很多方面都容易得多。因此，JEPA 系统在接受训练时，试图从输入中提取尽可能多的信息，但仅提取相对容易预测的信息。

所以说，世界上有很多事情是我们无法预测的。例如，如果您有一辆自动驾驶汽车在街道或道路上行驶，道路周围可能有树木，而且可能是刮风的日子。所以树上的叶子是以一种半混乱、随机的方式移动，你无法预测，你不在乎，你不想预测。所以你想要的是你的编码器基本上消除所有这些细节。它会告诉你有叶子在移动，但它不会提供到底发生了什么的细节。

因此，当你在表征空间中进行预测时，你就不必预测每一个细节的像素，你知道，这不仅更加简单，而且它使得系统能够本质上学习一个抽象的世界表征方式。你知道，能够被模型化和预测的内容会被保留，而其他被视为噪声的部分会被编码器剔除，因此它提升了表征的抽象层次。

想想看，这其实是我们一直在做的事，每当我们描述一个现象时，我们总是在某个特定的抽象层次上进行描述，并不会总是用量子场理论来描述每一个自然现象，那是不可能的。因此，我们有许多不同的抽象层次来描述世界中发生的事情，从量子场理论到原子理论，再到化学中的分子，材料，直至实世界中的具体对象等等。

所以，我们不能仅仅在最基础的层面上对一切进行建模，而这正是生成式联合嵌入（JEPA）所追求的，关键是以自我监督的方式学习抽象表征，而且你知道，你还可以层层递进地进行。因此，我认为这是智能系统不可或缺的一部分。在语言领域，我们可以不用这么做，因为语言本身已经在某种程度上是抽象的，并且已经排除了大量不可预测的信息。因此，我们可以不提升抽象层次而直接进行单词预测。

莱克斯·弗里德曼（Lex Fridman）：

所以，尽管联合嵌入仍然是生成式的，但它是在这个抽象的表示空间中进行生成的？

杨立昆（Yann Lecun）：

是的。

莱克斯·弗里德曼（Lex Fridman）：

你提到我们在语言上变得懒惰了，因为我们已经免费得到了抽象表征，现在我们必须拉远镜头，真正地思考通用智能系统，我们必须处理物理世界的部复杂性。现实的复杂性是我们无法回避的，我们必须跨越从一个丰富而详细的现实世界，跳转到一个抽象的现实表达上，这样我们才能进行推理和其他思考活动，对吧？

杨立昆（Yann Lecun）：

问题在于，那些通过预测学习的自监督算法，即使是在表征空间里，如果输入数据更加重复，它们就能学得更多的概念。数据中的重复性越高，它们就越能够抓住数据的内在结构。比如，视觉这样的感知输入、感觉输入，比文本包含更多的重复性和结构性，文本的重复性远不及视觉。

让系统先学习世界如何运作

莱克斯·弗里德曼（Lex Fridman）：

这又回到了你之前问的问题，语言可能确实包含了更多的信息，因为它已经经过压缩，你说的没错，但这也意味着它的重复性更低，因此自监督的效果可能不会那么好。是否有可能把视觉数据的自监督训练和语言数据的自监督训练结合起来呢？ 尽管你可能对那些 10 的 13 次方的 token 不以为然，但这些 token 代表了人类大量的知识，包括 Reddit 上的闲聊以及所有的书籍、文章，以及人类智慧创造的整个范围。那么，能不能将这两者结合起来呢？

杨立昆（Yann Lecun）：

长远看是可能的，但我认为如果我们这样做得太早，我们就会面临被诱惑作弊的风险。实际上，这就是目前人们在视觉语言模型中所做的，我们基本上是在作弊，我们用语言作为辅助工具来弥补我们视觉系统的不足，帮助它们从图像和视频中学到好的表征。

但这样做的问题是，可能会使我们的视觉语言系统得到一些提升，我的意思是我们的通过让它们处理图像，但我们还远未达到甚至是猫或狗的智能水平，或者对世界的理解。它们没有语言，但对世界的理解远超任何大语言模型。它们能规划极其复杂的动作，并设想一系列行动可能带来的结果。 在我们将这种理解与语言结合之前，我们得先弄清楚如何让机器学会这些。

显然，如果我们能把这些与语言结合起来那将是巨大的胜利。但在此之前，我们必须集中精力研究如何让系统学习世界的运作方式。

莱克斯·弗里德曼（Lex Fridman）：

因此，这个联合嵌入的预测架构，对你来说，将能够学习常识之类的东西，就像猫用什么来预测如何通过撞倒主人来最好地惹恼它的主人一样。

杨立昆（Yann Lecun）：

这正是我们的目标。实际上，我们正在使用的技术是非对比性的，这意味着不仅架构是非生成式的，我们使用的学习程序也是非对比性的。

我们有两套技术。其中一套基于蒸馏，并且有许多方法都使用了这一原理，一种由 DeepMind 开发，称为 BYOL，一组由 FAIR 开发，一种称为 vcREG，另一种称为 I-JEPA。 我应该说，vcREG 实际上并不是一种蒸馏方法，但 I-JEPA 和 BYOL 肯定是。还有另一种也称为 DINO 或 DINO，也是在 FAIR 生产的。

这些方法的核心思想是，你拿一个完整的输入，比如一张图片，通过一个编码器处理，产生一个表征（representation），然后你对这个输入进行破坏或改变，用本质上相同但略有不同的编码器处理，然后训练一个预测器。

有时预测器非常简单，有时不存在，但训练预测器以根据损坏的输入来预测第一个未损坏的输入的表示。但你只训练第二个分支。您只需训练网络中接收损坏输入的部分。另一个网络，你不训练。但由于它们具有相同的权重，因此当您修改第一个时，它也会修改第二个。通过各种技巧，您可以防止系统崩溃，就像我之前解释的那样，系统基本上会忽略输入。所以效果非常好。我们在 FAIR 开发的 DINO 和 I-JEPA 两种技术对此非常有效。

莱克斯·弗里德曼（Lex Fridman）：

那么，我们到底在处理什么样的数据呢？

杨立昆（Yann Lecun）：

有几种可能的情况。一种情况是，你可以拿一张图片，通过改变其裁剪方式、大小、方向、模糊度和颜色等方式来损坏它。尽管这些手段很可怕，但它们只是稍微降低了图片的质量，并改变了构图。

在某些情况下，对于 I-JEPA，您不需要执行任何操作，只需屏蔽其中的某些部分即可。您只需删除一些区域，本质上就像一个大块，然后运行编码器并训练整个系统、编码器和预测器，以根据损坏区域的表示来预测良好区域的表示。

这就是 I-JEPA。例如，它不需要知道它是图像，因为它唯一需要知道的是如何进行这种遮蔽。而对于 DINO，你需要知道它是一个图像，因为你需要做几何变换和模糊之类的事情，这些都是图像特定的。我们拥有的最新版本称为 V-JEPA。所以它基本上与 I-JEPA 的想法相同，只是它应用于视频。所以现在你拍摄了整个视频并掩盖了其中的一整块内容。我们掩盖的实际上是一种时间管，因此视频中每个帧的整个片段覆盖整个视频。

莱克斯·弗里德曼（Lex Fridman）：

有一根管子穿过整个视频的每一帧，这根管子在各个帧中的位置是固定不变的，就像一根笔直的长管子。

杨立昆（Yann Lecun）：

这管子通常包含 16 帧或者相似的长度，我们在这 16 帧中的相同区域遮盖掉一部分，每个视频的遮盖部分当然都是不同的。然后，我们再次对这个系统进行训练，让它能够通过部分遮盖的视频预测出整个视频的内容，这种方法效果非常好，它是我们第一个能够学习到高质量视频内容表征的系统，因此，当你将这些内容表征输入一个受监督的分类器时，它可以相当准确地识别出视频中正在进行的动作。这是我们首次获得如此高质量的成果。

莱克斯·弗里德曼（Lex Fridman）：

这证明了良好的内容表征已经形成，说明其中确有其物。

杨立昆（Yann Lecun）：

我们还有初步的结果显示，这些表征能够帮助系统判断视频中的情景是物理上可能发生的，还是完全不可能的，比如某个物体突然消失，或者一个物体突然从一个地方跳到另一个地方，或者形状发生了改变。

莱克斯·弗里德曼（Lex Fridman）：

这意味着它能够把握视频中所呈现现实的一些物理约束，比如物体的出现和消失。这些都非常关键。但问题是，这样的系统是否真的能够帮助我们构建一个世界模型，让它对世界有足够的了解，进而能够驾驶汽车呢？

杨立昆（Yann Lecun）：

可能可以，但这需要一段时间。目前已经有基于这种理念的系统存在，你需要的是这种系统的一个稍作修改的版本。想象你有一个完整的视频，对这个视频进行的操作是你可以将视频处理成只展示开头部分，而不是整个原始视频，或者只是遮盖掉视频的后半部分。

然后，您训练 JEPA 系统或我所描述的类型，以从移动视频中预测完整视频的表示。但你也可以给预测器提供一个动作。比如车轮向右转10度什么的，对吧？

这样的话，如果是汽车的行车记录仪，你知道方向盘的具体角度，你应该能在一定程度上预测将会发生什么，当然，你不可能预测到所有的细节，比如突然出现在摄像头视野中的物体，但是在一个更抽象的层面上，你可以对即将发生的事情有所预测。

所以现在你拥有的是一个内部模型，它说：“这是我对 T 时间世界状态的想法。这是我正在采取的行动。这是对时间 T 加一、T 加增量 T、T 加两秒时世界状态的预测”，无论它是什么。

如果你有这种模型，你就可以用它来制定计划。现在你可以做到大语言模型做不到的事，那就是规划你的行动，以实现特定的结果或达成某个特定的目标。

你可以设定许多目标。例如，我可以预测，如果我手里有一个这样的物体，我放开手，它就会掉落，如果我用一定的力量在桌子上推它，它就会滑动，如果我推的是桌子本身，用同样的力量它可能就不会移动。我们在脑海中有这样一个世界的内部模型，它使我们能够规划一系列行动以实现某个具体的目标。

所以，如果你有这样一个世界模型我们可以设想一系列接连发生的行为，并预测这些行为所导致的结果，以及最终状态在多大程度上实现了某个具体目标，比如把瓶子移到桌子的左侧。接下来，我们要计划一系列行为以尽可能达成这个目标。

在这里我们谈的不是学习过程，而是推理阶段，对吧？这实际上是规划的过程。在最优控制领域，这是一个非常传统的概念，称为模型预测控制。您有一个想要控制的系统模型，可以预测与命令序列相对应的状态序列。您正在规划一系列命令，以便根据您的角色模型，系统的最终状态将满足您确定的目标。自从计算机问世以来，基本上是从 20 世纪 60 年代初开始，这就是规划火箭轨迹的方式。

如何完成从纽约到巴黎的行程

莱克斯·弗里德曼（Lex Fridman）：

因此，对于模型预测控制来说是肯定的，但你也经常提到分层规划（Hierarchical planning），分层规划是否能自然发展出来？

杨立昆（Yann Lecun）：

那么，并不是这样，你需要构建特定的架构来实现分层规划。如果你想规划复杂的行为，分层规划是绝对必要的。

如果我想从纽约去巴黎，这是我总是举的例子，我现在正坐在纽约大学的办公室里，我需要最小化的目标是我与巴黎的距离，在一个非常高层面、抽象的表示中，我的位置，我需要把它分解成两个子目标，第一个是去机场，第二个是乘飞机去巴黎。

现在我的子目标是去机场，我的目标函数是我与机场的距离。我怎么去机场呢？我得走到街上，然后在纽约叫辆出租车。好的，现在我有了另一个子目标，走到街上，这意味着要乘电梯下楼，走出大街，我该如何前往电梯？

首先我得从椅子上站起来，打开我的办公室门，走向电梯，按下按钮。我该如何从椅子站起来呢？你可以想象，这个过程可以细化到几乎是毫秒级别的肌肉控制。很明显，你不可能为你从纽约到巴黎的整个行程做出基于毫秒级肌肉控制的详细计划。

首先那会非常耗费资源，而且根本就是不可能的，因为你无法预知所有可能会发生的情况，例如你不知道打车需要多久，或者在交通中前往机场需要多长时间，我的意思是你必须对一切都了如指掌才能做出这样的计划，而你并没有这些信息。因此，你必须进行分层规划，这样才能开始行动，并且在执行过程中不断调整计划。

目前还没有人真正知道如何在人工智能中实现这一点，没有人知道如何训练一个系统学习合适的多层次表征，以便分层规划能够有效执行。

莱克斯·弗里德曼（Lex Fridman）：

已经有类似的技术出现了吗？例如，你能不能用一个最先进的大语言模型来帮你完成从纽约到巴黎的行程，就像你刚才提出的那种详细的一系列问题？也就是说，你能不能给我一个清单，列出从纽约到巴黎我需要执行的 10 个步骤，然后对于每一个步骤，你能不能再给我一个清单，详细到每个步骤需要如何移动每一块肌肉，或许不是你真正可以通过意志力控制的动作。

杨立昆（Yann Lecun）：

所以，这里面隐含了很多问题，对吧。首先，大语言模型将能够回答其中的一些问题，直至在一定条件下，如果他们在训练集中已经接受过类似情景的训练。

莱克斯·弗里德曼（Lex Fridman）：

它们有能力回答所有这些问题，但是其中一些答案可能是虚构的，也就是说并非基于事实。

杨立昆（Yann Lecun）：

确实，它们或许能产生某些答案，但它们无法真正精确到每一毫秒的肌肉控制，比如详细到你如何从椅子上站起来的程度。不过，到了某个层面，我们可以用语言来描述事物，它们可能能够给出一个计划，但前提是它们接受过制定这类计划的训练。它们无法为它们从未遇到过的情况制定计划，它们只能复述它们所受的训练模板。

莱克斯·弗里德曼（Lex Fridman）：

但是，以从纽约到巴黎的例子来说，它们会在哪一层面的抽象上遇到问题呢？因为我可以想象几乎每个环节的分析都能够相对准确地回答，特别是涉及纽约和巴黎这些大城市的情况。

杨立昆（Yann Lecun）：

所以我意思是，当然一个大语言模型能够解决这个问题，如果你特别为此进行训练的话，这是毫无疑问的。在某些层面上，只要问题能用语言表达，但如果你想要深入到具体动作，比如如何下楼梯或者仅仅是从椅子上站起来，那你就做不到了。这就是为什么你需要真实体验物理世界，这种体验的信息量远远超过你能用语言表达的范围。

莱克斯·弗里德曼（Lex Fridman）：

所以，我们之前讨论的关于联合嵌入空间，可能正是我们需要的像那样的…在机器人技术领域，与实际物理世界的交互至关重要，而大语言模型则像是搭建在这些交互之上的思维层，负责处理更广泛的逻辑推理问题，比如我需要预订一张飞机票，知道该如何上网操作等等。

杨立昆（Yann Lecun）：

当然，你知道很多人熟知的那些相对高级的计划，实际上都是学习来的，并非人们自己发明的。我们自然有能力这么做，但大部分人使用的计划都是他们经过学习的，他们可能看到别人如何制定计划，或者被教导该怎么去做。你不能指望一个从未听说过飞机的人能够独立构想出从纽约飞到巴黎的整个计划，除非他们之前有过相关的例子。大语言模型当然能够完成这类任务，但但是如何将其与低级别操作联系起来，这需要使用像 JEPA 这样的东西来完成，这些东西基本上可以提升表示的抽象级别，而无需试图重建情况的细节，这就是我们需要 JEPA 的原因。

应该放弃对生成式 AI 的追求

莱克斯·弗里德曼（Lex Fridman）：

我很想深入了解你对自回归大语言模型持怀疑态度的观点。一种检验你这种怀疑的方法是，虽然你说的每一点都很有道理，但如果我将你今天和通常的见解应用到三年前，我就无法预见大语言模型的成功。那么，你认为自回归大语言模型能够表现得如此出色，这合理吗？你能解释一下你的直觉吗？因为如果我完全接受你的观点，我会认为自回归大语言模型根本不可能成功。仅靠一次处理一个标记（token），这些模型能完成他们正在进行的任务吗？答案是否定的。

杨立昆（Yann Lecun）：

所有大语言模型（LLMs），不只是自回归（autoaggressive）类型的，包括类似 BERT 的双向（bi-directional）模型在内，都在利用一种叫做自监督学习（self-supervised learning）的技术。我一直强烈支持自监督学习，已经很多年了。这些模型展示了自监督学习的确切效果，堪称惊艳。 尽管这个概念并非起源于 BERT，但 BERT 确实提供了一个极好的范例。

你可以拿一段文本，故意对其进行破坏，然后训练一个庞大的神经网络来补全缺失的部分。这种方法带来了巨大的收益，使我们能够打造出能理解语言的系统，这些系统有能力翻译数百种语言，并且能够双向翻译，还是多语言的，也就是说，这是一个单一系统，可以被训练来理解并翻译数百种语言。

它们还能生成摘要、回答问题和创造文本。还有一种特殊的自回归（auto regressive）技巧，它限制系统仅用先前的词来预测下一个词，而不是通过查看整个文本来构建文本的表征。这一限制是通过设计网络架构来实现的，正是这种方式让我们能够构建自回归型的大语言模型。

多年前，这种被称为仅解码器（decoder-only）LLM 的模型带来了惊喜，因为这类系统仅仅尝试从先前的词产生新词，而当它们的规模扩大时，它们确实能够更深层次地理解语言。在处理大量数据并将其扩展到巨大规模时，我们有了一个意外的发现。这种惊喜早在很多年前就出现了，比如来自 Google、Meta、OpenAI 等公司的研究成果，可以追溯到 GPT 这一类工作，也就是通用预训练的 Transformer。

莱克斯·弗里德曼（Lex Fridman）：

你是指像 GPT-2 那样的模型吗？在某个时刻，你开始意识到增大规模可能会持续带来新的益处。

杨立昆（Yann Lecun）：

是的，这些发现来自于多个团队的工作，但是，如果你想把它放在 GPT 的时间线上，那应该是在 GPT-2 时期。

莱克斯·弗里德曼（Lex Fridman）：

嗯，我之所以这样说，是因为你说得太有吸引力了，你用来说自回归的大语言模型无法深刻理解世界，如果我们用同样的直觉来看，他们是否能够形成对世界足够的表征，以至于非常令人信服，基本上轻松通过了最初的图灵测试呢？

杨立昆（Yann Lecun）：

我们被它们的流畅性所迷惑，我们只是默认假设如果一个系统能流畅地使用语言，那么它就具备了人类智能的所有特点，但这种印象是错误的，我们真的被它欺骗了。

莱克斯·弗里德曼（Lex Fridman）：

你认为艾伦·图灵会怎么看待这个问题呢？

杨立昆（Yann Lecun）：

如果他不了解任何背景，只是简单地与之交流，图灵会认为图灵测试是一个非常糟糕的测试方法。这是人工智能社区多年前就达成的共识，图灵测试并不是一个很好的智能测试方法。

莱克斯·弗里德曼（Lex Fridman）：

汉斯·莫拉维克（ Hans Marvek）又会怎么看待大语言模型呢？

杨立昆（Yann Lecun）：

汉斯·莫拉维克（ Hans Marvek）会说莫拉维克悖论依然存在。

莱克斯·弗里德曼（Lex Fridman）：

但你不觉得他会非常惊讶吗？

杨立昆（Yann Lecun）：

当然，每个人都会被震撼，但问题不在于是否震撼，而在于我们知道这些系统的局限在哪里。它们的确让人印象深刻，能完成许多有益的工作。它们的周围已经构建起了一个庞大的产业，未来必将取得更多进展。然而，也有许多事情是它们无法完成的，我们必须明白这一点，并弄清楚如何克服这些障碍。这些见解源于我近十年在自监督学习领域的研究，其实这个理念的历史甚至更长。

简而言之，它是指在不针对任何特定任务的情况下，捕捉一组输入数据的内部结构。学习表征是关键所在。14 年前我与他人共同创办的会议名为国际学习表征会议（International Conference on Learning Representations）就是为了探讨这一点，这也是深度学习正在致力解决的核心问题，而这已经成为了我近 40 年的研究热情。

在很长一段时间内，我们只能依靠监督学习来学习表征，但随后我们开始探索过去所称的无监督学习，并在 2000 年代初与 Yoshua Bengio 和 Geoff Hinton 一同重新激发了对无监督学习的兴趣。（编辑注：Yoshua Bengio、Geoff Hinton 和 Yann Lecun 共同被称为深度学习三巨头。）后来，我们发现如果数据足够多，监督学习实际上效果非常好，这使得无监督学习有段时间被边缘化了。

从 2014 年开始，随着 FAIR 的建立，我试图大力推进自监督学习的新方法，不论是对于文本、图像、视频还是音频。我们在这方面的一些工作取得了令人难以置信的成就。正是因为这些研究，我们才能拥有多语言翻译系统，以及在 Meta 上进行内容审核的能力，Facebook 上的一些多语言示例能够判断文本是否属于仇恨言论，这都是在 NLP 领域使用自监督学习取得的进展，并结合了 Transformer 架构等技术。

自监督学习取得了巨大的成功。在语音识别领域，我们也取得了类似的成就，有一个叫 WAVE2VEC 的系统，它是一种基于对比学习的联合嵌入架构，能够使用大量未标记数据生成多语言的语音识别系统，仅需几分钟的标记数据就能进行实际的语音识别，这真是令人惊叹。现在，我们有了基于这些理念的系统，能够实时地将数百种语言互译，甚至包括那些没有书面形式的语言。

这些系统不通过文本转换，而是直接实现从语音到语音的转换，使用一种内部的、离散的语音单元表示方法，这种技术曾被称为无文本 NLP。这是一个难以置信的成功。此外，你知道，在过去 10 年里，我们尝试将这种方法应用于图像的表示学习，通过训练系统预测视频内容来学习直觉物理。

我们尝试了很多次，失败了很多次，使用生成模型和预测像素的模型，我们未能让它们学会高质量的图像和视频表示。我们尝试了很多次，发表了很多论文，这些模型勉强能够工作，但效果并不理想。最终，我们放弃了预测每个像素的方法，转而只做联合嵌入。

在表征空间进行预测确实是一项挑战，有大量的证据显示我们很难仅通过生成式模型来学习真实世界的准确表征。因此，我想告诉大家，虽然现在大家都在讨论生成式 AI，但如果你真的对达到人类级别的 AI 感兴趣，那就应该放弃对生成式 AI 的追求。

莱克斯·弗里德曼（Lex Fridman）：

不过，你真的认为通过联合嵌入表征能够取得长足进步吗？像是常识性推理，以及更高层次的推理，我感觉这两种推理是大语言模型（LLM）能够执行的种类。好吧，我不用“推理”这个词，但 LLM 能做的事情似乎本质上和我们用来在世界中导航的常识性推理大不相同。显然，我们需要两种能力。你不会认为仅靠联合嵌入就能学会，比如怎样从纽约到巴黎，或者怎样理解当今世界的政治状况，对吧？ 这些是人类用语言产生大量言论的话题，但它们并没有以视觉上可以清晰压缩的方式表现出来。

杨立昆（Yann Lecun）：

是的，有许多情况对于一个纯粹基于语言的系统来说可能很难掌握，比如，你可能可以通过阅读文本学到全世界所有公开可得的文本中，仅凭打个响指是无法从纽约到达巴黎的。

可能还有更复杂的情况，这些情况大语言模型可能从未遇到过，也可能无法判断其可能性。因此，从低级到高级的这种联系，问题在于，语言所表达的高级概念是建立在我们在日常交流中有一个共同的、低层次的经验，但大语言模型目前还不具备这一点。

莱克斯·弗里德曼（Lex Fridman）：

我们在谈话时都明白彼此对于这个世界有着相似的理解，比如对于物理规律，像重力是怎样作用的等等。这种关于世界的共识虽然我们在语言中不会直接表达，但是通过大量的文字，我们可以捕捉到这些隐藏在行间的信息。为了构建一个连贯的世界模型，模型必须要理解重力的原理，哪怕它并没有直接的解释。即使关于重力，我们有明确的解释和知识，但是要正确生成语言，模型还是需要搞懂我们认为的常识性推理。你可能会说现有的文本数据不足以达到这个目的，你不这么认为吗？

杨立昆（Yann Lecun）：

不，我同意你的观点，想要实现高水平的常识推理，就必须有基础层面的常识作为基石。 但是，这在大语言模型中是缺失的，因为它们完全是基于文本训练的。另外，你提到的所有语言中都隐含着对现实世界的理解这一点，我不太同意。

许多关于现实世界的知识并没有在语言中表达出来，我们所有的对话，包括那些在暗网上的私密对话，比如直接消息等，这些内容的总量可能远远超过了大语言模型所训练的数据量，而这些内容是我们没有必要在交流中明确表达的。

莱克斯·弗里德曼（Lex Fridman）：

这些幽默都是即兴而来，比如说，如果我不小心把这个杯子打翻，你可能会拿我开涮，而你开玩笑的过程中会包含对杯子倒下这一现象的解释，接着你可能会顺带介绍一下重力如何起作用，还可能随口提到一些东西撞击地面时会如何破碎，甚至可能开个关于熵的冷笑话，你永远也无法完全重现这一幕。这样的小玩笑会有成千上万个，通过这些玩笑你能逐渐理解重力的作用、杯子怎么会破等等知识，这其实并不需要你去刻意学习。看吧，这样的学习方式效率很低，最好是不要把东西打翻。

杨立昆（Yann Lecun）：

我认为，如果你积累了足够多这类数据，我们在婴儿时期所积累的大多数信息并没有被记录在文本中，几乎任何描述都不包括这些。

想想看，这相当于一个四岁孩子 16,000 小时的清醒时间，仅仅是视觉就有 10 到 15 字节的信息量，触觉和听觉也有类似的信息传输量，而语言文字直到几年后才开始学习，到了 9 岁时，你已经学会了重力、惯性、稳定性的概念，知道了生物和非生物的区别，在 18 个月大时，你就懂得了人为什么要做事，如果别人做不到，你会伸出援手。

我的意思是，你主要是通过实际上，通过观察而非交互， 在人生的头几个月里，婴儿对周围世界没有任何影响力，他们只能被动观察。单是这样，他们就能积累了大量的知识。这正是当前 AI 系统所缺失的部分。