在上一期内容中,我们已经回顾了两个月前杨立昆(Yann LeCun)与 Lex Fridman 的播客采访内容。在上一期内容中,他们讨论了如下重点内容:
- 杨立昆认为,尽管大语言模型在处理语言方面取得了显著成就,但它们缺乏对物理世界的理解,缺乏持久记忆和推理规划能力,无法达到人类水平的智能。他提出,人类通过感官输入获得的知识远超过通过语言获得的,强调了与物理世界的互动在学习中的重要性。
- 他相信 AGI 最终会被创造出来,但它将是积极的,不会逃离人类控制或消灭人类。他建议,如果目标是达到人类级别的AI,那么应该放弃对生成式 AI 的追求,转而专注于能够学习世界内部结构的方法。
- 杨立昆怀疑仅通过自回归预测方式训练的大语言模型是否能够真正理解世界,他认为这些模型缺少了关键的认知成分。他介绍了JEPA,这是一种不同于传统生成模型的方法,它通过编码器和预测器来学习世界的抽象表示,可能有助于构建更高级的 AI 系统。
- 杨立昆强调,为了实现复杂的任务,如自动驾驶,AI 需要能够进行分层规划,这是一个目前尚未解决的挑战。杨立昆强调自监督学习在捕捉数据内部结构方面的重要性,并介绍了在语音识别和多语言翻译系统中自监督学习的成功应用。
建议还未看过上一期内容的读者先看上一期采访内容,本次采访的后半部分与上半部分有逻辑上的延续性,两篇内容一共四万字,需要一定的阅读时间。采访的下半部分依然是两位嘉宾:
- 杨立昆(Yann LeCun):Meta 的首席 AI 科学家,纽约大学教授,图灵奖得主,也是人工智能史上的重要人物,被誉为“卷积神经网络之父”,他在卷积神经网络(Convolutional Neural Networks,简称CNN)的研究和应用上做出了开创性的贡献,这些网络已成为计算机视觉、语音识别等众多人工智能应用的基石。
- Lex Fridman:一位广受欢迎的播客主持人,以其深入探讨科技、AI、哲学和人类未来等主题而闻名。他也是 MIT 的研究科学家,专注于机器学习和自动驾驶技术的研究。他的播客《Lex Fridman Podcast》吸引了包括马斯克在内搭众多顶尖科学家、工程师和思想领袖参与对话,成为科技领域的热门节目。五年前,OpenAI 的几位联合创始人就是他播客节目的常客。
杨立昆(Yann LeCun)推动了 Meta 的开源模型发布,对过去一年 AI 行业的持续进步有巨大贡献,并且他保持在社交媒体上发表犀利观点,在他的一些言论被标签化的同时,我们认为你有必要花一些时间来阅读下在「骂战」背后他真正的思想是什么。在尚未找到一条唯一的通往 AGI 的道路之前,了解不同角度的声音也是非常有必要的。
在采访的下半部分,杨立昆强调了开源 AI 的必要性,可以避免权力集中在少数公司手中,同时他也提出,未来十年将是机器人技术非常激动人心的时期,但要实现完全自主的机器人还有很长的路要走。他讨论了自监督学习的重要性,认为这是 AI 发展的关键,它允许系统在没有特定任务指导的情况下学习数据的内部结构。并且,他相信 AGI 最终会被创造出来,但它将是积极的,不会逃离人类控制或消灭人类。
以下是本次采访内容的后半部分,我们做了不改变原意的小幅删减。
大语言的幻觉
莱克斯·弗里德曼(Lex Fridman):
我记得你的演示幻灯片里有个很形象的图,它展示了大语言模型(LLM)的局限性。我想听听你对生成式 AI 幻觉现象的看法,比如为什么大语言模型会产生幻觉,这种现象背后的原因是什么。
杨立昆(Yann Lecun):
由于自回归预测的特性,每当语言模型生成一个词时,这个词就有一定概率会让我们偏离合理答案的范畴。如果我们假设(这是个很强的假设)这些错误的概率在生成一连串词时是独立的,那就意味着每生成一个新词,我们维持在正确答案集中的概率就会呈指数级下降。
这里有个很重要的假设,就像你提到的,如果存在犯错的非零概率(而且看起来确实存在),就会出现一种“漂移”现象,而且这种漂移是指数级的,错误会不断累积。 因此,随着生成的词数增加,答案变得荒谬的概率也会指数级增长。这点对你来说是否直观明了?
莱克斯·弗里德曼(Lex Fridman):
我想问一下,从数学上讲或许是这样,但是,不是有一种向真理靠拢的引力吗?因为平均而言,我们希望真理在训练数据中有足够的代表性。
杨立昆(Yann Lecun):
不,这实际上是在与“维度的诅咒”作斗争。纠正这个问题的方法是通过让系统为人们可能提出的各种问题提供答案来微调系统。人们往往有类似的疑问,所以通过收集这些问题的数据,我们大概能涵盖 80% 左右的常见问题,然后对系统进行微调,使它能对这些问题给出满意的答案。
得益于系统强大的学习能力,它很可能做到这一点。但是,也存在一个巨大的问题集,这些是在训练期间没有涉及到的。在所有可能的问题中,用于训练的问题仅占极小一部分,它们只是所有可能问题的一个微小子集。 因此,系统在已经经过预训练或微调的问题上表现良好,但是还有一个庞大的问题空间,它不可能被训练到,因为数量实在太多了。所以,不管系统接受过怎样的训练来生成正确的响应,都有可能通过找到一个超出训练集范围的问题来使其失效,或者找到类似的问题,然后系统就会开始胡言乱语。
莱克斯·弗里德曼(Lex Fridman):
当你提到“问题”时,你是指那个确切的问题,还是指在很多方面都大不相同的问题?比如,提出一个在互联网上从未出现过的问题或表达,这样做难吗?
杨立昆(Yann Lecun):
人们已经找到了一些方法,比如在问题中插入一串基本上是随机的字符,这足以使系统进入一个全新的模式,在这种模式下,它会给出一个完全不同于没有这些字符时的答案,这实际上是一种“越狱”系统的方式,让它跳出原有的训练框架。这种情况其实是一种条件反射。
莱克斯·弗里德曼(Lex Fridman):
对,这是一个非常直观的例证。这已经超出了它原本的设计意图,对吧?如果你真的能拼凑出语法合理的句子,那么破解它真的那么简单吗?
杨立昆(Yann Lecun):
有些人确实做过这样的尝试,他们用英语写下一个句子,或者用英语提出一个问题,它就能给出一个完全恰当的答案。但当你仅仅替换其中几个单词为另一种语言的相同单词,答案就突然变得毫无意义。
莱克斯·弗里德曼(Lex Fridman):
所以,我想说的是,在人类可能产生的所有提示中,有多少会导致系统崩溃呢?
杨立昆(Yann Lecun):
问题在于存在一个长尾效应。 这是很多人在社交网络等地方已经注意到的一个问题,那就是有一个非常非常长的人们可能会问的问题列表,你可以针对 80% 或者更多大部分人可能会问的问题来微调系统,但是这个长尾是如此之长,你不可能为所有的情况都调优系统,最终系统就变成了一种巨大的查找表,对吧?本质上,这并不是我们想要的,我们希望系统能进行推理,当然,还能制定计划。
在大语言模型中进行的推理是非常原始的,你能断定它很原始,因为对每个生成的标记所做的计算量是固定的。 所以,如果你提出一个问题,而这个问题有一个答案,在给定数量的标记内,用于计算这个答案的计算量可以被精确地估算出来,就像你知道的那样,它取决于预测网络的大小,不管是 36 层还是 92 层再乘以标记的数量,就是这么回事。
因此,基本上,不管问题的提出方式如何,某些问题可能很简单,容易回答,而有些可能非常复杂,难以回答,甚至可能因为是无法确定的问题而无法回答。系统分配给解答的计算资源可能是固定的,或者与答案中生成的标记(token)数量成比例。
然而,我们处理问题的方式并不是这样。我们在面对复杂问题时,会花费更多时间去尝试解决和回答它们,因为它们更具挑战性。 解决问题会涉及到预测、反复迭代调整我们对问题的理解,以及层次化思考。
莱克斯·弗里德曼(Lex Fridman):
那么,这是否意味着大语言模型存在一个根本性的缺陷,或者说是否还有更多其他的问题?
杨立昆(Yann Lecun):
是的。
拥有「系统二」能力的模型
莱克斯·弗里德曼(Lex Fridman):
现在你的反应就像一个大语言模型,立刻回答”不”,这只是我们可以在其上构建更复杂机制的基础世界模型,如你所述的持久长期记忆和推理等。但我们需要基于语言得到的世界模型。实际上,构建这种推理系统在一个结构良好的世界模型基础上可能并不难。
杨立昆(Yann Lecun):
难易程度如何,近期的未来将给出答案,因为许多研究人员正在致力于开发对话系统的推理和规划能力。即使我们限于语言处理,有能力在回答前规划答案——而这种规划并不必然与产出答案的语言直接相关——也是很重要的。我相信,在接下来的几年里,会有更多的系统拥有这种规划能力,但这些系统的设计蓝图将与自回归的大语言模型截然不同。
这与心理学家所说的人类系统一和系统二之间的差异是一样的。_(编辑注:这个理论来自《思考快与慢》)_系统一是那些我们可以不经刻意思考就能完成的任务,就像下意识行为一样。比如熟练的驾驶员能一边开车一边聊天或听广播,根本不需要专心于驾驶。同样,老练的国际象棋玩家在对阵新手时,也可以凭借对棋局模式的熟悉而不用深思熟虑。
而系统二涉及到那些需要我们有意规划和深思的任务。例如,当不太熟练的棋手或是在与同样水平的棋手对弈时,我们就需要考虑各种可能的走法,并且认真思考。这种深思熟虑的过程,利用了我们的内部世界模型,这就是系统二的作用,而这也是当前大语言模型尚未能够实现的。
那么,我们该如何让它们能够执行这类任务呢?我们如何构建一个能够进行这种计划或推理的系统,让它在面对复杂问题时能够投入更多资源,而不是简单地进行自回归式的令牌预测。解决方案可能与在概率模型或图形模型中进行潜在变量推断类似。
基本原则是,提示就好比是观察到的变量 M,而模型的作用基本上是,它可以衡量一个答案在多大程度上是提示的良好答案。想象一下,如果有一个庞大的神经网络,但它只输出一个数值,这个数值在答案适合问题时为零,在答案不适合时则为一个很大的数字。
假设你有这样一个模型,你就能利用它来生成好的答案。操作方法是,你首先提出问题,然后在所有可能答案中寻找能让这个数值最小化的答案。这种模型被称为基于能量的模型(energy based model)。
莱克斯·弗里德曼(Lex Fridman):
但这样的模型需要依赖大语言模型(LLM)构建的模型吗?
杨立昆(Yann Lecun):
实际上,你需要做的不是在可能的文本串中搜索可能最小化该能量的文本字符串,而是在抽象表示的空间中进行优化。也就是说,在抽象思维的空间里,你会通过最小化模型输出来构思一个想法。这是一个优化过程,因此系统产生答案的方式是通过优化,即最小化一个目标函数来进行。
这里讨论的是推理过程,而不是训练阶段,因为系统已经训练完成。现在我们得到了答案思想的抽象表示,然后将这个表示输入到一个自回归解码器(auto regive decoder),这个解码器可以非常简单,它会将这个表示转换成能表达这个思想的文本。
在我看来,这就是未来数据系统的设计蓝图。它们会在将答案转换成文本之前,通过优化来规划它们的答案。这种方法是图灵完备的。
莱克斯·弗里德曼(Lex Fridman):
你能详细解释一下优化问题本身吗?具体来说,目标函数是什么,以及你在哪个空间上进行优化?
杨立昆(Yann Lecun):
在抽象的表征空间中进行优化。你会有一个提示(prompt),这个提示(prompt)通过编码器进行处理,生成一个表示形式,或许还会经过一个预测器来预测正确答案的表示形式。但这个表示形式可能并不完美,因为它可能需要进行一些复杂的推理。因此,又会有一个过程来调整答案的表示形式,目的是为了最小化一个成本函数,这个函数用来评估答案对问题的适用度有多高。我们暂时不考虑如何训练这个系统去评估答案的好坏。
莱克斯·弗里德曼(Lex Fridman):
但假设我们能够创建出这样一个系统。这个搜索过程是怎样的呢?
杨立昆(Yann Lecun):
这是一个优化过程。如果整个系统是可微分的,那么这个标量输出就是某个神经网络的运算结果。通过梯度下降,利用反向传播梯度,我们可以确定如何调整答案的表示形式,以便最小化成本函数。
莱克斯·弗里德曼(Lex Fridman):
这依然是基于梯度的推理吗?
杨立昆(Yann Lecun):
是的。现在,我们得到了答案在抽象空间中的表示,接下来可以将其转换成文本。这个过程的优势在于,表示现在可以通过梯度下降来优化,但这个表示是独立于我们将要用来表达答案的语言的。
莱克斯·弗里德曼(Lex Fridman):
换句话说,我们是在操作抽象表示(subtract representation),这让我想起了联合嵌入的概念,在概念空间中而不是在字面的表示空间中工作显然是更优的。但问题是,它是否能够进行像我们现在讨论的推理这样的高级功能?
杨立昆(Yann Lecun):
实际上并不能,或者说只能在非常有限的程度上做到。基本上,你可以把它们想象成执行我之前提到的优化,只不过是在离散空间进行,这个空间是由可能的符号序列构成的。它们用一种极其低效的方法来进行这种优化,那就是生成大量假设,然后挑选最佳的几个。
这种方式在计算上极其浪费资源,因为你必须对每一个可能的序列运行你的大语言模型。这真的很浪费。所以,在连续空间进行优化要更好一些,那里你可以使用梯度下降法,而不是生成海量的选项然后选择最佳的,你只需要迭代地精炼你的答案,以便接近最佳状态。这种方法更加高效,而且你只能在连续空间里用可微分函数来做到这一点。
莱克斯·弗里德曼(Lex Fridman):
我们谈到了深度思考或深度推理的能力。你怎么知道哪个答案基于深度推理是更好或更差的呢?
杨立昆(Yann Lecun):
那么我们就要问,从概念上来说你是如何训练一个基于能量的模型的,对吧?基于能量的模型是一个输出为标量的函数,就是一个数字。你给它两个输入 X 和 Y,它会告诉你 Y 是否与 X 相符。X 可以是你观察到的任何东西,比如泵的图像、视频等等,而 Y 是一个答案的提议,或者是视频的延续,无论是什么。它会告诉你 Y 是否与 X 相符,如果 Y 与 X 相符,那么该函数的输出会是零;如果 Y 与 X 不相符,输出会是一个正数,且不为零。
那么,如何训练这样一个系统呢?通常,我们会向模型展示一系列配对的 X 和 Y,也就是问题和对应的答案,并训练大型神经网络内部的参数,使其输出为零。但这个方法并不完全可行,因为系统可能会简单地对所有情况都输出零。因此,我们需要设计一个过程来确保对于错误的 Y,其能量值将高于零。
这里有两种方案,第一种是对比方法。对比方法就是给系统展示一个 X 和一个错误的 Y,并指导系统给出一个高能量值,也就是通过调整计算能量的神经网络权重使其增加。这种方法的问题是,如果 Y 的可能性很多,那么需要展示的对比样本数量将会非常庞大。
尽管如此,人们还是会这样做,当你使用 RLHF 训练系统时,实际上你训练的是一个所谓的奖励模型,这个模型本质上是一个目标函数,用来判断答案的好坏,这和前述方法基本相同。我们其实已经在某种程度上进行了这种训练,只是我们没有将其用于推理过程,仅用于训练阶段。
还有一类是非对比方法,我个人更倾向于这些方法。 非对比方法的基本思想是,能量函数在训练集中的兼容的 X 和 Y 对上应该有低能量。那么,如何确保在其他所有情况下能量值都较高呢?通过在成本函数中加入一个正则化项来实现,这个正则化项的作用是尽可能减少低能量状态所占的空间体积。
实现这一点的具体方法有很多,具体取决于你的网络架构,但这是基本的原则。所以,如果你在能量函数上施加压力,以便在 XY 空间的某些特定区域内,如果能量降低,那么在其他地方能量就会自动增加,因为整个空间的低能量区域是有限的。这是通过系统的构建或者正则化函数实现的。
莱克斯·弗里德曼(Lex Fridman):
我们之前讨论得很抽象,但究竟什么是好的 X 和好的 Y?什么是 X 和 Y 的好表示?因为我们一直在讨论语言,如果你直接处理原始语言文本,那通常来说是不够的,所以必须要有某种抽象的思想表达方式。
杨立昆(Yann Lecun):
是的,你可以直接用语言来做这件事,比如 X 是一段文本,Y 是这段文本的延续;或者 X 是一个问题,Y 是答案。
莱克斯·弗里德曼(Lex Fridman):
但你的意思是,这样做还不够,这会做大语言模型正在做的事情。
杨立昆(Yann Lecun):
不,这要取决于系统内部结构是如何构建的。如果系统内部构建了一个可以操纵的潜在变量 Z,以便最小化输出能量,那么这个 Z 就可以视为一个好答案的表达,你可以将其转换成一个好的答案 Y。
莱克斯·弗里德曼(Lex Fridman):
这种系统可以以非常类似的方式进行训练吗?
杨立昆(Yann Lecun):
非常相似的方式。但你必须有办法防止系统崩溃,确保对于未经训练的内容保持高能量。目前,在大语言模型的训练中,这一点是非常隐蔽的,以至于人们并没有意识到这一点,但实际上是在进行的,是因为当你给一个词赋予高概率时,你自然会降低其他词的概率,因为你的概率总量是有限的。
所以当你在训练你的大语言模型时最小化交叉熵,或者进行其他训练以预测下一个词时,你实际上是在增加你提高了系统判断正确单词的概率,同时降低了判断错误单词的概率。这样间接地为合适的词序列分配了更高的概率,而为不合适的词序列分配了更低的概率,这个过程很直接。而且,这个机制为什么有效并不是一目了然的,因为你并没有计算整个序列的联合概率,而是将概率分解成连续符号的条件概率。
莱克斯·弗里德曼(Lex Fridman):
那么,你是如何处理视觉数据的呢?
杨立昆(Yann Lecun):
我们一直在使用 I-JEPA 架构。判断两样东西之间的兼容性,比如说,这里有一张图片或视频,旁边是它的损坏、位移或转换版,或者是被遮挡的版本。然后系统的能量由预测误差决定,即预测出的良好输入的表示与实际良好输入的表示之间的误差。
因此,如果有一张好图片和它损坏的版本,系统会认定它们的能量为零,因为它们实际上是同一物体的不同版本。如果两张图片完全不同,它会给出一个高能量值。
莱克斯·弗里德曼(Lex Fridman):
希望整个过程能够为我们提供一个非常好的视觉现实压缩表示?
杨立昆(Yann Lecun):
而我们知道这是可行的,因为我们接着会使用这些表示作为分类系统的输入,并且它有效。
莱克斯·弗里德曼(Lex Fridman):
然后这样的系统运行得非常好。好,总结一下,你以一种生动的方式推荐,只有 Yann Lecun 才能够建议我们放弃使用生成模型,转向联合嵌入体系结构吗?
杨立昆(Yann Lecun):
是的。
莱克斯·弗里德曼(Lex Fridman):
并且放弃自回归生成方法。
杨立昆(Yann Lecun):
是的。
开源是历史必然趋势
莱克斯·弗里德曼(Lex Fridman):
这听起来就像是法庭上的证词,放弃概率模型,改用基于能量的模型,就像我们之前讨论的那样,放弃对比学习方法,而选择规范化方法。我想问你,你已经批评增强学习有一段时间了,对吧?那么,最后的建议是我们应该放弃增强学习(RL),转向使用模型预测控制,正如你所讲的,只有在规划没有得到预期结果时才使用 RL,在这种情况下,我们用 RL 来调整世界模型或评价者,对吗?那么,你提到了结合人类反馈的强化学习,为什么你仍然不喜欢强化学习?
杨立昆(Yann Lecun):
我并不讨厌强化学习,我认为它不应该被彻底放弃,但我认为我们应该尽量减少其使用,因为它在样本效率方面极其不足。 所以,正确训练一个系统的方法应该是首先让它主要通过观察,或许少量的互动,来学习世界的良好表示和模型。
莱克斯·弗里德曼(Lex Fridman):
然后基于这些进行指导。如果表示做得好,那么所需的调整应该是最小的?
杨立昆(Yann Lecun):
是的,现在,如果你学会了一个世界模型,你可以使用这个模型来规划一系列行动,以达成特定的目标。除非你衡量成功的方式不够精确,你对于是否会从自行车上摔下或者你的 MMA 对手会采取什么行动的预测可能是错误的。
所以,你可能会出错的地方有两个:一是你的目标函数可能并未真实反映你想要优化的目标,二是你的世界模型可能不够准确。当你预测世界将如何变化,结果却发现预测不准时,如果你想在操作世界或调整目标函数时修正你的世界模型,这正是强化学习(RL)的核心任务。RL 就是要处理这些问题,至少在某种程度上是这样。
因此,调整你的世界模型,甚至是提前探索那些你知道自己的模型不准确的空间部分,这就是所谓的好奇心驱动,或者说是通过游戏来实现。在游戏中,你会探索那些你通常不会真正尝试的领域,因为它们可能有危险,但你可以安全地调整你的世界模型。
这就是为什么在学习特定任务时要使用 RL——你已经有了良好的表征和世界模型,但你需要根据当前的情况进行调整。
莱克斯·弗里德曼(Lex Fridman):
你为何认为人类反馈强化学习(RLHF)如此有效呢?它对大语言模型产生了怎样的变革影响?
杨立昆(Yann Lecun):
真正产生变革的是人类反馈。人类反馈可以通过多种方式使用,有些其实是纯粹的监督学习,并不真正属于强化学习。 你可以请求人们对模型生成的多个答案进行评分,然后你的任务是训练一个能预测这些评分的目标函数。然后,你可以使用这个目标函数来判断一个答案的好坏,并通过这个过程反向传播梯度来优化你的系统,以便它只生成高评价的答案。这是一种方式,在强化学习中,这意味着训练所谓的奖励模型,基本上是一个小型神经网络,可以估计答案的好坏程度。
这和我之前提到的规划目标很相似,不过现在它不是用于规划,而是用于微调你的系统。我认为把它用于规划会更有效,但是,目前它是用来调整系统的参数的。现在有好几种方法可以做这件事,你知道的,有些方法是有监督的,你只需要问一个人类,比如说,什么是对这个问题的好回答,然后你就输入回答。我的意思是,现在这些系统有很多种调整方式。
莱克斯·弗里德曼(Lex Fridman):
很多人对谷歌最近发布的 Gemini 1.5 表示非常批评,用我的话说,我会说它过于政治正确,而且是以负面的含义。它做了一些几乎荒谬的事情,比如修改历史,比如创造一个黑人版的乔治·华盛顿的图片,所以大家开始提出问题:什么是设计这些大语言模型的过程?审查在这些模型中扮演了什么角色?等等问题。因此你在 Twitter 上评论说开源是解决之道。可以解释一下吗?
杨立昆(Yann Lecun):
我实际上在几乎每个社交网络上都发表过这样的评论,而且我已经在多个场合反复强调过这个观点。这是我的看法,人们可以抱怨 AI 系统存在偏见,而且它们通常确实存在偏见。AI 系统在训练时受到数据分布的影响,这些数据往往映射了社会偏见,可能会触犯某些人,有时候去除偏见的尝试也会因历史不正确等原因引起争议。
所以我们可以提出两个问题:第一,能否创造出一个完全无偏见的 AI 系统?答案是绝对不可能。 这不仅仅是因为技术上的挑战,更因为偏见本身因人而异。每个人对偏见的定义都有所不同,尽管有些事实不容质疑,但很多观点或表达方式却是多元的。所以,一个无偏见的系统根本就是不可能实现的。
那么,解决办法是什么呢?答案其实和自由民主制度对待新闻自由的态度相似:新闻应当是自由和多元的。我们之所以倡导言论自由,是因为我们不想让所有信息都源自同一个渠道,这与民主、思想的进步,甚至是科学发展都是背道而驰的。
在科学领域,人们通过争论不同观点来推动科学进步,而当人们有不同意见并提出解决方案时,科学才能取得进展,最终达成共识。这在全球所有民主国家都是如此。因此,我们正在迈向一个全新的未来,我们与数字世界的每一次互动都将由 AI 系统,即 AI 助手来介入。
我们将会使用智能眼镜,这已经不是梦想,你现在就能从 Meta 那里买到它们。通过它们,我们可以与连接着大语言模型的 AI 进行交流。你可以针对任何疑问获得答案,或者当你观赏某座纪念碑时,眼镜内置的系统摄像头可以帮助你,你可以询问,比如,“你能告诉我关于这栋建筑或这座纪念碑的信息吗?”当你看到一份外语菜单时,系统会帮你翻译出来,或者如果我们讲不同的语言,系统还能实时翻译对话。
因此,未来我们与数字世界的很多交互都将通过这些系统来进行。你知道,我们未来使用的搜索引擎 不再仅仅是搜索引擎,它们将变成可以对话的系统,你只需提出问题,它就会回答,并指引你到合适的参考资料。
但是问题是,我们不能依赖只有几家位于美国西海岸的大公司来提供这些系统,因为这些系统将成为人类知识的集合,我们不能让这些知识被少数人控制。正如新闻业需要多样性一样,我们也需要多样化的人工智能助手。
目前来看,训练基于 Transformer 的大语言模型非常昂贵且复杂,只有少数公司能够做到这一点。 如果这些顶尖系统是开源的,任何人都可以使用并进行微调。如果我们建立一些系统,允许不同的人群,无论是个人、公民团体、政府机构、非政府组织还是公司,都可以将这些开源的 AI 系统按照自己的目的在自己的数据上进行定制,那么我们将拥有非常多样化、针对各种需求的专门 AI 系统。
比如,我和法国政府讨论过很多次,法国政府无法接受他们所有公民的数字生活被美国西海岸的三大公司所操控,这对民主是一个威胁,无论这些公司怀有多么良好的意图,所以,这同样是对当地文化、价值观和语言的威胁。我与印度 Infosys 的创始人交谈,他正在资助一个项目,用以调整由 Meta 开发的开源模型 Lama 2,让 Lama 2 能够支持印度的所有 22 种官方语言,这对印度人至关重要。
我还和一个前同事 Moustapha Cisse 交流,他曾是 Fair 的一名科学家,后来搬回非洲,在非洲为 Google 创建了一个研究实验室,现在拥有一家新的初创公司 Co-Kera。他的目标是开发能够使用萨加尔地区语言的大语言模型,这样人们就能获取医疗信息,因为那里的医生数量非常有限。如果没有开源平台,这一切都不可能实现。
拥有开源平台后你可以获得在政治观点、语言、文化、价值体系以及各个领域的技术能力等方面多样化的 AI 系统,你可以有一个生态系统,各公司针对特定行业应用调整这些开源系统,比如,一个出版商拥有成千上万的书籍,他们希望建立一个系统,让顾客只需提出问题就能查询任何书籍的内容。这需要在他们的私有数据上进行训练。
Meta 内部就有这样一个公司名为 Metamate,它是一个大语言模型,可以回答任何关于公司内部事务的问题,非常实用。许多公司都渴望拥有这样的技术,不仅为了他们的员工,也为了更好地服务于顾客。因此,要想拥有一个人工智能行业,要想拥有非偏见的人工智能系统,唯一的出路就是依靠开放源代码平台,基于这些平台,任何团队都能构建出专门的系统。因此,历史的必然趋势是,大部分人工智能系统都将基于开放源代码平台来构建。
莱克斯·弗里德曼(Lex Fridman):
这是一个非常美好的愿景。这意味着像 Meta 或 Google 这样的公司在建立了基础预训练模型之后,应该只进行最少量的微调。但实际上,Meta 能做到这一点吗?
杨立昆(Yann Lecun):
答案是否定的。你可能不知道,但公司的目的是为了赚钱,而开放源代码就像是在免费送东西。马克·扎克伯格曾经制作了一个非常吸引人的视频,谈论使用了 350,000 个 Nvidia H100。
莱克斯·弗里德曼(Lex Fridman):
是的,仅仅是 GPU 的成本就达到了 1000 亿美元,还不包括训练所需的其他基础设施。我不是商业专家,但怎样才能从中赚钱呢?你提出的愿景非常强大,但实现盈利怎么可能呢?
杨立昆(Yann Lecun):
其实,有几种商业模式可以考虑。Meta 所依赖的商业模式就是基于服务,这种服务的融资可以通过广告或是商业客户来进行。比如,如果你有一个大语言模型,它能帮助一家小型比萨饼店通过 WhatsApp 与顾客交流,顾客可以直接下单比萨,系统会自动询问他们想要什么配料或其他什么。商家会愿意为这样的服务付费。这就是一种模式。
另外,如果它是基于更传统服务的系统,它也可以通过广告来盈利。 但关键在于如果你有一个足够大的潜在客户群,并且你需要为他们构建那样一个系统,那么将它开源也不是什么坏事。
莱克斯·弗里德曼(Lex Fridman):
我不是商业专家,但如果你发布开源模型,其他人也可以执行相同类型的任务并进行竞争,为企业提供微调的模型。Meta 正在做的赌注是认为我们会做得更好吗?
杨立昆(Yann Lecun):
不,赌注更多在于我们已经拥有一个庞大的用户和客户基础。所以,无论我们提供给他们的是什么,对他们来说都将是有用的,并且我们能够从中创造收入。而且,你知道,我们提供那个系统或者说基础模型,例如开源的基础模型,供其他人在其基础上构建应用程序也没有坏处。如果这些应用程序对我们的客户有用,我们就可以从他们那里购买。他们可能会改进这个平台。
我们已经看到了这种情况,我的意思是 Llama 2 已经有了数百万次的下载量,还有成千上万的人提出了如何改进它的想法。所以,这显然加速了进程,使得系统对一个广泛的社区成员可用,并且有成千上万的企业正在使用它来构建应用程序。因此,Meta 利用这项技术来创造收入的能力并未因为基础模型的开源发布而受损。
解决偏见的唯一方案是多样性
莱克斯·弗里德曼(Lex Fridman):
Gemini 受到的主要批评是,如你所述,在西海岸,只是为了澄清一下,我们现在在东海岸,我想 Meta AI 的总部应该就设在这里,所以那里有些激烈的论调。虽然我们在美国西海岸,但我认为可以公正地说,大多数科技界人士倾向于左翼政治立场。因此,人们对 Gemini 的批评在于,在您提到的消除偏见的过程中,它们的意识形态倾向变得明显。您说开源是唯一的出路,但您是否观察到这种意识形态倾向让工程变得困难?
杨立昆(Yann Lecun):
我不这么认为。问题并不在于设计这些系统的人的政治倾向,而是在于他们的客户基础的可接受性或政治倾向。一家大公司不能承受得罪太多人的后果,所以他们会确保他们推出的产品是“安全”的,不管这意味着什么。很容易做得过头,而且对每个人都做得恰到好处也是不可能的,你不可能让每个人都满意。
正如我之前所说,你不能有一个被每个人都视为无偏见的系统,你朝一个方向推,一部分人会认为它有偏见;你再朝另一个方向推,另一部分人会认为它有偏见。还有一个问题是,如果你把系统往某个方向推得太过分,它就会变得与事实不符。所以,生产一个对每个人都无偏见的系统是不可能的,我看到的唯一解决方案是多样性。
莱克斯·弗里德曼(Lex Fridman):
多样性这个词的完整含义是以各种可能的方式实现多样性。
杨立昆(Yann Lecun):
Marc Andreessen 今天刚发了条推文,我来简单概括一下他的观点。他认为,只有初创公司和开源项目能避免大型科技公司面临的问题。他提出了一个问题:大型科技公司能否真正推出生成式 AI 产品?
面对日益增长的要求,比如内部激进分子、员工群体、失控的高层管理人员、功能失调的董事会、压力团体、极端监管机构、政府机构、被引号标注的媒体、专家,以及其他所有可能干扰产品输出的因素,一是不断增加的要求;二是持续存在生成错误答案、图片或视频的风险,无法预测它会在任何时候说出或做出什么;三是法律风险,包括产品责任、诽谤、选举法等等;四是不断尝试控制不良输出,这会降低模型的好用性、愉悦性、有效性等;五是不良文本、图像、视频的公开性,这些实际上会成为下一个版本训练数据的一部分。
他强调,由于来自各方的不满,这个过程是多么困难。正如你所说的,你无法创造一个让所有人都满意的系统。
莱克斯·弗里德曼(Lex Fridman):
如果你打算自己微调,并维持封闭的源代码,问题就在于如何尽可能减少不满的人数。你提到,这几乎是不可能的,开放源代码才是更好的方式。
杨立昆(Yann Lecun):
Marc 提到了一些确实会让大公司感到恐慌的问题,比如国会调查、法律责任,以及制造可能导致人们对自己或他人造成伤害的产品。
大公司确实非常小心,不会生产那些可能引发问题的产品。因为他们首先不想伤害任何人,其次是想要维护自己的生意。 因此,实际上对于这些系统来说,不可避免地要形成政治观点是不可能的,你知道,关于各种可能涉及政治或者不涉及政治的问题,但人们对此可能持有不同看法,例如关于道德问题,还有宗教问题和类似的事情,或者文化问题,不同社群的人在这些问题上本来就存在分歧。
因此,只有相对少数的问题是人们能够在一定程度上达成共识的基本原则。但是超出这些原则,如果你想让这些系统发挥作用,它们不可避免地会冒犯到一些人。因此,开放源代码更好,多样性更好,对吧?开放源代码能够促进多样性。
莱克斯·弗里德曼(Lex Fridman):
这可能是一个令人着迷的世界,如果开源世界是真的,如果 Meta 引领潮流并创建这个开源基础模型的世界,政府将拥有一个经过微调的模型,然后人们就有可能左派和右派的投票将有自己的模式和偏好来进行选择,这可能会进一步分裂我们。但这是我们人类的事。我们基本上要弄清楚,技术使人类能够更有效地与人交往,而人类提出的所有困难的道德问题都将由我们来解决。
杨立昆(Yann Lecun):
正如言论自由有其界限一样,对于这些系统可能被授权产生的内容也必须有一定的限制,你知道,需要一些安全措施。这正是我一直感兴趣的领域,即在我们正在研究的那种架构中,我们之前讨论过,系统的输出是基于推理来满足某个目标,这个目标可以包含一些保护性措施。我们可以在开源系统中加入这样的保护措施。
比如说,如果我们最终开发出基于这种设计蓝图的系统,我们可以在系统中设置一些基础的保护措施,确保系统不会造成危险或有害等等——这些是基本的共识。然后,人们可以根据自己社区的需要添加更细致的调整或额外的保护措施。
莱克斯·弗里德曼(Lex Fridman):
微调将更多地涉及到一些模糊地带,比如定义什么是仇恨言论、什么是危险行为等等,因为不同的社区有不同的价值观念。即便是关于如何制造生物武器这样的目标,我记得你提到过,或者至少有篇论文,一些研究者在探讨大语言模型对社会的影响。其中一个考虑的界限就是,使用大语言模型是否比普通的搜索引擎,比如谷歌搜索,更容易获取相关信息?
杨立昆(Yann Lecun):
越来越多的研究显示,实际上并没有帮助。拥有大语言模型并不会帮助你设计或制造生物武器或化学武器,如果你已经可以使用搜索引擎和图书馆的话。所以,即使有了更多信息或者获取信息变得更容易,也并没有实质上的帮助。这是第一点。
第二点是,拥有制造化学或生物武器的指导清单是一回事,真正去制造它又是另外一回事,这比你想象的要复杂得多,大语言模型在这方面也无济于事。实际上,世界上没有任何个人,甚至国家都不能只凭借这些信息就轻易制造出来。因为大多数情况下他们不知道如何保护自己的人民不受其害,所以,实际上,这是太危险了,根本就不应该使用。
而且,它已经被国际条约所禁止。化学武器虽然也被条约所禁止,但问题是一样的,使用起来很难不反咬使用者。但我们可以向你提问,比如埃隆·马斯克,我可以给你一份非常详细的指导手册,教你如何制造火箭引擎。即使你有一个由 50 位工程师组成的团队,他们有建造它的实践经验,你仍然需要爆破掉其中的十几个才能制造出一个有效的引擎。而且你知道,这跟化学武器或生物武器之类的是一样的,它需要专业知识,你知道,在现实世界里,这些知识并不能帮到你。
莱克斯·弗里德曼(Lex Fridman):
它甚至需要我们一直在讨论的那种常识性专业知识,也就是如何将基于语言的指令转化为物理世界中的实物。这需要很多指令本身之外的知识。
杨立昆(Yann Lecun):
确切地说,很多生物学家实际上已经在回应这些说法时指出,你意识到实际进行实验室工作有多难吗?我告诉你,这不是简单的事情。
莱克斯·弗里德曼(Lex Fridman):
这也是汉斯·莫拉维克(Hans Moravec)再次成为焦点的原因。Marc 宣布 Llama 3 最终将会推出,我不认为有具体的发布日期,但你最期待什么呢?首先是已经推出的 Llama 2,或许还有未来的 Llama 3、4、5、6、10,就是开源未来下 Meta 的发展。
杨立昆(Yann Lecun):
好,有几个方面,那就是未来会有各种版本的 Llama,比如你知道的之前 Llama 的改进版本,规模更大、性能更好的多模态等,然后在未来的一代系统中,真正能够进行规划的系统, 可能是通过视频进行训练的,因此它们有一些世界模型,可能能够进行我之前谈到的推理和规划类型。
但这会花多长时间呢?比如说,这类研究何时能够逐渐融入 LIama 的产品线,我并不清楚,也无法告诉你。 我们还需要突破几个关键点才能达到那个阶段。不过,你可以通过我们发布的研究来跟踪我们的进展。就像上周我们发布的 V-JEPA 研究,这是向视频训练系统迈出的第一步。 接下来,我们会基于这种理念,开发出基于视频训练的世界模型。
类似的工作也在 DeepMind 和加州大学伯克利分校进行。很多人都在致力于这方面的研究,许多好的想法正在涌现。我认为,这些系统将会类似于 JEPA 轻型系统,而不是生成式模型。 我们将拭目以待未来会如何展开。
有些非常出色的工作,例如 DeepMind 的 Danijar Hafner 正在进行这类模型的研究,通过学习表征来进行规划或通过强化学习来学习任务。伯克利的 Pieter Abbeel、Sergey Levine 和其他一些人也在进行类似的研究。实际上,我正在以纽约大学的身份参与其中的一些项目合作,并且我们也通过 Meta 进行合作,因为伯克利的实验室与 Meta 有某种联系。我认为这非常令人兴奋。
自从 10 年前 Fairway 成立以来,我对机器学习和 AI 的方向从未感到如此激动。30 年前,当我们开始研究组合网络和早期的神经网络的初期时,我就感到非常兴奋了。因为我看到了通向可能达到人类智能水平的路径,这个系统能理解世界、记忆、规划和推理。 有些想法可能会取得进展,我对此感到非常期待。我喜欢的是,我们可能已经找到了正确的方向,并有可能在我的大脑变得迟钝或我退休之前取得成功。
莱克斯·弗里德曼(Lex Fridman):
你是否觉得涉及如此多 GPU 的过程很有魅力?就是在这么大的计算能力上进行的整个训练过程,从全局视角来看,人类共同创造了这些计算设备,能够培养出这样一个大脑,然后我们将其开源,好像是创造了一个开源的大脑,它是在这个巨大的计算系统上训练出来的。你是否对训练的细节、建设基础设施、硬件、冷却系统等方面感兴趣?或者你最激动的部分仍然是理论方面,像是软件?
杨立昆(Yann Lecun):
我多年前是做硬件的,没错,那是几十年前了。硬件已经有了一些微小的改进和变化。当然了,规模是必要条件,但还不够。我们当然需要更多的计算能力。就计算能力而言,我们还远远没有达到与人脑相匹配的水平,可能在未来几十年会实现,但目前我们还有很长的路要走,尤其是在能源效率方面,我们确实还有很大的进步空间。 因此,在硬件领域还有很多进步需要做。
目前,很多进步是,有一些来自硅技术,但很多来自架构创新,还有相当一部分来自更有效的实现已经流行的架构的方法,基本上是结合了 Transformer 和 com 网络。因此,我们还有很长的路要走,直到我们的技术达到饱和,我们需要提出新的原则、新的制造技术、新的基本组件,可能基于与传统数字半导体不同的原理。
莱克斯·弗里德曼(Lex Fridman):
有意思的是,所以你认为为了构建 AMI,我们可能还需要一些硬件创新,对吧?
杨立昆(Yann Lecun):
如果想让它变得无处不在,当然了,因为我们必须减少电脑的功耗。现今的 GPU 消耗的功率是半千瓦到一千瓦,而人脑大约只有 25 瓦,但 GPU 的能力远不及人脑,我们需要大约十万到一百万倍的性能才能匹配人脑,所以我们还相差很远。
AGI 的猫鼠游戏
莱克斯·弗里德曼(Lex Fridman):
你经常说人工通用智能(AGI)不会很快到来,意思是不会在今年,也不会在接下来几年,可能会更久远。你的直觉是什么?
杨立昆(Yann Lecun):
首先,它不会是一个突发事件,这样的想法通常由科幻小说和好莱坞推广,好像有人突然发现了通向 AGI 或者人类水平 AI 的秘密,然后打开一台机器,我们就拥有了 AGI,这种情况是不会发生的。它不会是一次性的事件,它将是逐渐的进步。 在我们让系统达到人类观察到的规模和性能之前,还需要很长时间,它不会在一天之内发生。
我们能开发出能从视频中学习世界运作方式并理解世界的系统吗?它们拥有庞大的联想记忆力,这使得它们能够记忆很多事物。但这种情况不会很快发生。目前我们需要开发一些基础技术,虽然我们已经掌握了不少,但要让这些技术与整个系统协同工作还有很长一段路要走。
我们是否会拥有能够按照我之前描述的目标驱动人工智能架构进行推理和计划的系统?是的,但在我们让它正常工作之前,还需要一段时间。在我们让所有这些组件协同工作,拥有可以学习分层规划、分层表示的系统,这样的系统能适应各种不同的实际情况,就像人类大脑可以做到的那样,这至少需要十年的时间,可能还要更久,因为还有很多我们目前未知的问题,我们还没有遇到过,所以我们不确定是否有简单的解决方案在这框架内。
所以,它并不是近在咫尺的事情。我一直听到人们在过去的 12 到 15 年里声称,通用人工智能即将实现,但他们一直都是错的,当他们这么说时,我就知道他们是错误的,我称他们为胡言乱语。
莱克斯·弗里德曼(Lex Fridman):
首先,从人工智能这个词诞生起,就一直有一种与其他技术领域不同的乐观情绪。 这是因为所谓的莫拉维克悖论吗?为什么人们对通用人工智能这么充满希望?
杨立昆(Yann Lecun):
我认为这不仅仅是莫拉维克悖论,莫拉维克悖论只是我们意识到世界并非像我们想象的那般简单的结果。首先,智能不是一个可以用单一数值线性衡量的东西,你能说人类比猩猩聪明吗?在某些方面,是的,但在某些方面,猩猩在许多领域比人类更聪明,这使得它们能够在森林中生存。
莱克斯·弗里德曼(Lex Fridman):
因此,智商实际上是一个非常有限的衡量智力的工具。智力(Human Intelligence)本身比智商(IQ)所能测量的范畴要广泛得多。
杨立昆(Yann Lecun):
智商确实能在某种程度上衡量人类的某些能力,这是因为人类在外形和构造上相对一致。但它只能衡量一种可能对某些特定测试有用的能力,而对其他测试则不然。如果我们谈论其他智能生命体,它们擅长的基础技能可能与人类截然不同,这样智商就失去了意义。
智力是一系列技能的集合,是有效获取新技能的能力。 每一个智能实体掌握或能够迅速学习的技能集合都与其他实体不同。由于智力是一个多维的概念,技能集合存在于一个高维空间中,我们无法通过单一的衡量标准来比较两个实体哪个更智能,因为它们是多维的。
莱克斯·弗里德曼(Lex Fridman):
所以你经常对那些被称作 AI 末日论者的人表示反对。您能解释一下他们的观点以及您认为他们错误的原因吗?
杨立昆(Yann Lecun):
他们认为 AI 会引发各种灾难,逃离人类的控制,最终导致人类灭亡。这种观点基于很多大多是错误的假设。他们的第一个假设是,超级智能的出现将是一个具体的事件。我们某一天会发现某个秘密,开启一个超级智能机器,由于我们之前从未这样做过,它将会掌控世界并消灭人类。
这是错误的,超级智能的出现不会是一个单一事件。 我们将会拥有智能程度不断提升的系统,猫具备了很多人类级别智能所具有的特点,但它们的智能水平可能类似于猫或鹦鹉,或者其他类似的生物。随后我们会逐渐提升这些生物的智力,同时我们也会学习如何设置一些安全防护措施,确保它们行为得当。
这不会仅仅是一项工作,而是许多不同的人都会参与其中。其中一些人将成功创造出可控制、安全并设置了恰当防护措施的智能系统。如果有些尝试出了问题,我们可以利用这些优秀的系统来对抗那些失控的系统。因此,这将是我的智慧型 AI 警察对抗你的失控 AI。这并不意味着我们会面临一个单一的失控 AI 威胁,它会毁灭我们所有人——这种情况根本不会发生。
还有一个误区,就是人们认为因为系统具备智能,它就必然会想要掌控一切。这里有几种观点让人害怕,但我认为它们完全错误。其中一个观点是,在自然界中,更智能的物种似乎总是会主宰其他物种,有时候甚至会导致其他物种的灭绝,有时是有意的,有时则是无意的。
因此,有人会以此类比,认为如果 AI 系统比我们更智能,它们肯定会消灭我们,哪怕不是故意的,也只是因为它们不在乎我们。但这种想法是荒谬的,有很多原因可以解释。
首先,它们不会成为一个与我们竞争的物种,它们不会有征服的欲望,这种特性必须被硬连接(hardwire)到一套智能系统里,它在狒狒、黑猩猩、狼身上是硬连线的,但在猩猩身上却没有。具有这种以其他方式支配、服从或获得地位的愿望的物种是社会物种所特有的。像猩猩这样的非社会物种没有,而且它们几乎和我们一样聪明,对吧?
莱克斯·弗里德曼(Lex Fridman):
对你来说,人类没有足够的动机去将这种特性编码进 AI 系统,如果他们真的这么做了,那些 AI 可能会以某种方式对此进行惩罚,会超越他们。
杨立昆(Yann Lecun):
毕竟,有很多原因促使我们设计 AI 系统听从人类的指令,对吧?我是说,这就是我们构建它们的方式。然而,人们会说,看看大语言模型,大语言模型是不受控制的,他们说的没错,大语言模型确实不受控制。但是目标驱动的 AI,也就是通过优化特定目标来输出答案的系统,必须针对这个目标进行优化,而这个目标可以包括安全防护措施,一个是“服从人类”的安全防护,另一个则是“如果会伤害其他人则不服从人类”。
莱克斯·弗里德曼(Lex Fridman):
我好像在哪儿听过这个,不过我记不清了,可能是在一本书里。但说到那本书,这一切也可能带来意想不到的后果吗?
杨立昆(Yann Lecun):
当然会。所以这不是一个简单的问题,我的意思是,设计这些安全防护措施,确保系统正确运行并不简单。这不是一个简单的问题,也没有一劳永逸的解决方案,也没有数学证明能保证系统的安全性。我们需要通过渐进的、迭代的设计过程,设定这些安全防护,让系统按预期运行。有时它们可能会做出一些出人意料的事情,因为安全防护设置得不够好,我们需要对此进行修正,以便它们能正确执行。
有种观点认为我们无法完全做到这一点。稍有差错,我们就可能面临生命危险,这听起来很荒谬。我们的目标是逐步进步。这就像我多次提到的涡轮喷气发动机设计。我们是如何做到让涡轮喷气发动机变得如此可靠的呢?你看,这些极其复杂的硬件在极高温度下运行,有时甚至要连续工作 20 个小时。我们可以依靠双引擎喷气客机,以接近音速飞行到世界的另一端,这是多么不可思议啊,对吧?
我们是因为发现了一个关于如何确保涡轮喷气发动机安全的通用原则吗?不是的,这是经过几十年的设计微调,才使得这些系统变得安全。在通用电气或者斯奈克玛之类的公司中,是否有专门研究涡轮喷气安全的部门呢?答案是否定的。设计的核心就是安全,因为更优秀的涡轮喷气同时也意味着更安全。
人工智能也是如此,我们需要特别的安全措施吗?不需要,我们需要的是打造更优秀的人工智能系统,它们将因为设计得更有用、更可控而更加安全。
莱克斯·弗里德曼(Lex Fridman):
想象一下,一个非常有说服力的人工智能系统,它能让你相信任何事情。我至少可以设想这样一个系统,并且我认为这样的系统有可能变成武器,因为它能控制人们的思想。我们很容易受骗,很愿意相信事情,你可以想象一个能控制这一切的人工智能系统,甚至可以想象政府将其作为武器使用。那么,如果你设想这样一个系统,它是否与核武器有相似之处呢?
杨立昆(Yann Lecun):
并不相似。
莱克斯·弗里德曼(Lex Fridman):
那这项技术有何不同呢?你是说,这将是一个逐步的发展过程?我的意思是它可能发展迅速,但它会是一个渐进的过程。经过反复迭代,我们终将能够应对各种情况。
杨立昆(Yann Lecun):
想象一下,如果由弗拉基米尔·普京或者他的追随者设计的 AI 系统试图与每个美国人交谈,目的是说服他们投票给普京所支持的人,或者挑起人与人之间的敌对情绪,正如他们一直试图做的那样。这些 AI 不会直接与你交流,而是会与你的 AI 助手交流,这个助手将和对方的 AI 一样智能。正如我之前所说,在未来,你所有的数字世界互动都将通过你的 AI 助手来进行。
你首先想知道的可能是:这是不是一个骗局?这些信息真的可信吗?这些 AI 系统甚至无法直接触及你,因为它们只能与你的 AI 助手对话。你的 AI 助手就像是一个垃圾邮件过滤器,你甚至看不到那些垃圾邮件,它们会自动被归入你永远不会查看的文件夹中。同理,那些试图说服你的 AI 系统会与至少和它们一样智能的助手对话,而这个助手会告诉你这些尝试只不过是垃圾信息,根本不值得你关注。
莱克斯·弗里德曼(Lex Fridman):
因此,对于任何一个 AI 系统来说,要想在这场竞赛中大幅领先是极其困难的。
杨立昆(Yann Lecun):
世界的历史告诉我们,无论何时何地,每有进步,就有相应的对策出现,这是一场永无止境的猫鼠游戏。
莱克斯·弗里德曼(Lex Fridman):
但这也解释了为什么核武器如此引人注目,因为它是一种如此强大的武器,先拥有它的一方将占据极大优势,你可以想象……希特勒和斯大林如果先拿到武器,那么世界受到的影响将与美国首先获得武器时截然不同。但对你来说,核武器,你不会想象一个突破性的发现,然后为人工智能做出类似曼哈顿计划的努力吗?
杨立昆(Yann Lecun):
然而,正如我所说的,并不会有那样的一刻。这将是一种你知道的连续性进展,而且当某个突破性发现出现时,它会迅速地广泛传播,很可能首先是在工业界。我的意思是,这并不是一个政府或军事机构会特别具有创新性的领域,实际上他们,相当落后。所以,这些创新将来自工业界,而这类信息传播速度极快。我们在过去几年已经看到了这样的例子,比如即使是 AlphaGo,没有多少详细信息,也在三个月内被复制了。
莱克斯·弗里德曼(Lex Fridman):
这个行业不擅长保密。
杨立昆(Yann Lecun):
但即便如此,只要知道有些事是可能的,这个认识就让你意识到,投入时间去实现它是值得的。你可能不是第一个这么做的人,但你知道,你最终会做到的。而且,就像所有的创新,比如自我监督的 Transformer、仅解码器架构、大语言模型,你不需要完全了解它们的工作细节,就能知道这是可行的。
因为它们已经被部署并且被复制了,然后你知道,这些公司的员工会跳槽,他们从一个公司转移到另一个公司,信息就这样传播开来。 美国科技产业,尤其是硅谷之所以成功,正是因为信息流通极其迅速,这种信息传播的速度非常快,所以你信息的流通让全球各地区都走在了前列。
莱克斯·弗里德曼(Lex Fridman):
这里想深入探讨一下 AI 悲观主义者的心态。你用了一个典型的 Yann Lecun 风格例子,来形象地说明当一项新技术诞生时会发生什么。你说:有个工程师说,我发明了一个新玩意儿,我叫它圆珠笔。然后 Twitter 上的人回应说:哦天啊,人们可能会用它来写下各种恶劣的东西,比如错误信息、宣传、仇恨言论,马上禁止它。紧接着,写作悲观主义者就像 AI 悲观主义者一样出现了,想象一下,如果每个人都能拿到圆珠笔,这可能会毁掉社会,应该出台法律禁止用圆珠笔书写仇恨言论,现在就要开始管控圆珠笔。接着,铅笔行业的大佬也说:没错,圆珠笔非常危险,不像铅笔,书写可以擦除,圆珠笔书写的东西却永远存在,政府应该要求生产圆珠笔的厂商必须持有许可证。这种心理似乎是人类在面对新技术时的一部分反应。那么,你能分享一些对这种心态的深刻见解吗?
杨立昆(Yann Lecun):
实际上,人们对新技术以及它可能对社会产生的影响有一种天生的恐惧,他们会本能地反应,担心自己熟悉的世界会因为重大的变革——不论是文化现象还是技术革命——而受到威胁。他们担心自己的文化、工作、孩子的未来,以及生活方式。因此,任何变化都会被恐惧,你会看到这种模式一直存在,无论是技术革命还是文化现象,总是会有群体或媒体反应,他们基本上会将当下社会所有的问题都归咎于那个特定的改变。
比如,电力在某个时候被认为会杀死每一个人,火车被视为一件可怕的事,因为你知道,你……在时速超过 50 公里时就感觉无法呼吸了,这就是为什么有一个非常棒的网站,名为“悲观主义者档案馆”,它收集了所有那些报纸剪报,记录了人们想象中因为技术创新或文化现象而带来的所有可怕事情,你知道的,有一些很棒的例子,像是爵士乐或者漫画书被指责为导致失业,或者年轻人不再愿意工作等问题。
这样的现象已经存在了几个世纪。这些通常是出于本能的反应。问题在于,你知道我们是否会接受变化,还是我们会抵抗它,并且真正的危险与那些想象中的危险相比如何。
莱克斯·弗里德曼(Lex Fridman):
你在网上确实有些言辞犀利,Joscha Bach 发了一条推文,提到 HAL 9,000,你一定会哈哈大笑。引用:“我很欣赏你的论点,我完全理解你的沮丧,但吊舱门应该打开还是关闭是一个复杂而微妙的问题。”
作为 Meta AI 的负责人,你知道这确实让我担心,我们的 AI 霸主会用这种企业化的语言对我们说话,而你似乎用你的方式来抵抗这种情况,这是你可以做的事情吗?在大型企业工作时,如何避免过度担忧甚至因小心谨慎而带来伤害?
杨立昆(Yann Lecun):
我的答案是,开源平台的使用以及让一群背景多样的人来构建 AI 辅助工具,这些工具能够反映出全球不同的文化、观点、语言和价值观。如此一来,我们就不会仅受限于单一 AI 实体所推动的特定思维方式。我认为这是一个非常关键的社会问题。我一直很直言不讳,有时甚至显得讽刺,
莱克斯·弗里德曼(Lex Fridman):
不要停,永远不要停止,杨。我们喜欢它。
杨立昆(Yann Lecun):
因为我看到通过专有 AI 系统集权带来的危害,这比其他任何事情都要严重。 如果我们真的希望拥有多元的观点,那么在未来我们都将通过 AI 系统来互动,我们需要保证这些系统的多样性,以维护不同的思想、信仰、政治见解等,并且保护民主。
与此相反的是,有些人认为出于安全考虑,我们应该对 AI 系统实行严格控制,因为将其放到每个人手中可能会带来危险,恐怖分子可能会利用它。这可能会导致一个非常糟糕的未来,我们获取的所有信息都将受到少数公司通过专有系统的控制。
莱克斯·弗里德曼(Lex Fridman):
你信任人类能够利用这项技术构建对人类整体有益的系统吗?
杨立昆(Yann Lecun):
这不正是民主和自由言论的全部意义吗?你信任机构能做出正确的决策吗?你信任人们能做出正确的选择吗?当然,总有坏人存在。坏人可能会做出恶劣行为,但他们的技术不会超过那些心怀善意的人。所以,最终的局面就是好的 AI 和坏的 AI 的对决。 就像我们之前讨论的,可能有些流氓国家会开发一个 AI 系统,试图说服所有人陷入内战,或是选举一个对他们有利的领导者,但他们必须先过了我们的 AI 这一关。
关于机器人、就业与未来
莱克斯·弗里德曼(Lex Fridman):
好的,既然我们提到了现实世界,我很想知道你对机器人在这个物理世界的未来愿景。你提到的各种智能将使机器人成为人类更有效的合作伙伴。特斯拉的 Optimus 团队展示了一些人形机器人的进步,我认为这真的为整个行业带来了新的活力,这个行业长期以来都是由波士顿动力公司(Boston Dynamics)所领导的。 现在有很多公司,如 Figure AI,当然还有 Boston Dynamics,还有 Unitree 等,这真的很棒,我非常喜欢。你认为不久的将来会有数以百万计的人形机器人四处走动吗?
杨立昆(Yann Lecun):
可能不会那么快,但这终将成为现实,我认为未来十年对机器人来说将非常激动人心。 机器人行业已经等待了 10 到 20 年的时间,却迟迟没有真正起飞,除了一些预设的行为模式之外。主要的问题还是莫拉维克悖论,我们如何让这些系统理解世界如何运作,并进行行动规划?
波士顿动力公司采取的方法是,基本上依赖大量手工制作的动力学模型和提前的精心规划,这是非常典型的机器人技术,虽然有很多创新,也略带一些感知功能,但它们还是无法制造出家用机器人,对吧?我们要知道,我们距离实现完全自主的 5 级驾驶还有一段距离,我们离拥有一个能像 17 岁的青少年一样,通过驾驶 20 小时来自我训练的 5 级自主驾驶系统还非常遥远。
在我们拥有能够自我训练以理解世界运作方式的世界模型系统之前,我们不可能在机器人技术上取得显著进展。 因此,目前从事机器人硬件研发的许多人都在期望 AI 能在这方面取得足够的进展。
莱克斯·弗里德曼(Lex Fridman):
他们希望能在其中发现一些产品潜力。在拥有一个真正强大的世界模型之前,可能会有一个几乎接近强大的世界模型,人们正在尝试在一个笨拙的机器人中找到产品机会,就像是一个不那么完美高效的机器人。在工厂环境中,人形机器人可以帮助自动化一些流程,我认为这是一个非常有挑战性的任务,因为需要考虑到所有的安全要求等问题。我认为在家庭环境中的应用更加有趣,比如你提到的装载洗碗机。
杨立昆(Yann Lecun):
是的,我的意思是,比如打扫、清洁房子、餐后清理桌子、洗碗,所有这些任务,在理论上都是可以自动化的,但实际上它们非常复杂、非常高级,甚至仅仅是在一个未知空间内的基本导航都充满挑战。 不确定性的问题有时候可以用这样的方法来处理:你现在就可以做到,至于导航问题,没问题。但是,要实现让人类感到吸引的导航方式,那就是完全不同的挑战了。
这不仅仅是我们已经知道的,事实上,Fair 有一个所谓的嵌入式 AI 小组,他们并没有自己制造机器人,而是使用了市面上的商用机器人,你可以告诉一只机器人狗去冰箱,它实际上能够打开冰箱门,甚至可能从里面拿出一罐饮料,并把它递给你。所以它能够进行导航,能够抓取物体,只要它学会了识别这些物体,毕竟现在的视觉系统已经相当可靠了,但这并不意味着它是一个完全通用的机器人,能够执行像收拾晚餐桌这样复杂的任务。
莱克斯·弗里德曼(Lex Fridman):
对我而言,让人形机器人,甚至是各种机器人更多地进入我们的家庭是一个令人兴奋的未来,因为这能让人类直接在物理世界中与 AI 系统互动,通过这种方式,我们可以在哲学和心理层面上探索与机器人的关系,这将是非常有趣的体验。因此,我希望在整个 JEPA 项目上能够快速取得进展。
杨立昆(Yann Lecun):
当然,我希望一切都能按照计划进行,我们已经在自我监督视频学习的理念上投入了 10 年,并且在最近两三年里才实现了显著的进步。
莱克斯·弗里德曼(Lex Fridman):
你还提到了,即使没有大量的计算资源,也能取得许多有趣的突破,因此,如果你有兴趣攻读博士学位,从事这方面的研究,仍然有很多机会去做创新性的工作。那么,对于想要进入研究生院并攻读博士学位的本科生,您有什么建议呢?
杨立昆(Yann Lecun):
我基本上已经列出了这些观点,关于如何通过观察来训练一个世界模型,而不必依赖于庞大的数据集。我意识到,可能在大数据集上的训练对于产生像大语言模型那样的特性是必要的,但我认为还有很多好的想法可以在不扩大规模的情况下实现。
接下来是如何利用一个学到的世界模型来进行规划,特别是当系统所在的世界不是物理世界,而是互联网这样的世界,比如,行动可能涉及在搜索引擎中进行搜索、查询数据库、运行模拟、调用计算器或解微分方程。
我们如何让系统规划一系列行动来解决问题?因此,规划问题不仅仅是关于物理行动的规划,它还可以是为对话系统或任何智能系统规划使用工具的行动。 虽然这方面有一些研究,但并不多,例如 Fair 的一些工作,比如几年前的 Toolformer 以及一些更近期关于规划的研究,但我认为我们还没有找到这些问题的好的解决方案。
然后是分层规划的问题,比如我提到的从纽约到巴黎旅行的计划是分层的,但我们几乎所有的行动都在某种程度上涉及到分层规划,我们实际上对如何进行分层规划一无所知,没有任何 AI 展示过分层规划,其中必要的各个层面的表征都是学习来的。
我们可以进行两级分层规划,但那是在我们设计了这两个层级的情况下,比如,你有一只四足机器狗,你想让它从客厅到厨房,你可以规划出一个避开障碍物的路径,然后,你可以把这个路径发送给负责具体实施的规划系统,它会计算如何移动腿部来沿着设定的轨迹前进。
确实,这个双层规划过程是人工设计的,我们需要定义适当的抽象层次和每个层次应有的表征方式。那么,如何学习这种分层的行动计划呢?我们知道,通过计算机视觉和深度学习,我们可以训练系统学会感知的分层表征,但当我们尝试表征行动计划时,情况又如何呢?
莱克斯·弗里德曼(Lex Fridman):
面对我们谈论的这些令人兴奋的技术和可能性,当你展望未来的几十年,尽管社交媒体上有战争、分歧和仇恨这些人性的阴暗面,你对人类的未来还有什么希望吗?我们正在谈论如此多令人兴奋的技术,如此多令人兴奋的可能性。当你展望未来 10 年、20 年、50 年、100 年时,什么给你带来希望?如果你看看社交媒体,就会发现战争正在发生,有分裂,有仇恨,所有这些都是人性的一部分。但在这一切之中,是什么给了你希望?
杨立昆(Yann Lecun):
我喜欢这个问题。我们可以利用人工智能让人类变得更加聪明。人工智能将放大我们的智能,就如同每个人都拥有一群比我们更聪明的人工智能助手,它们会按照我们的指令行动,也许还能以超出我们能力的方式来完成任务,因为它们将比我们更加智慧,这就像是每个人都将拥有成为一队超级智能虚拟员工的领导,并不意味着我们会感到受威胁,这和管理一群比我们更有智慧的员工没什么两样。
我有过很多这样的经验,与比我更聪明的人共事,这真的是一件很棒的事情。 因此,如果有比我们更智能的机器来帮助我们完成各项任务,不管是在职场还是个人生活中,那将是极好的。因为智慧是最受追捧的资源。人类犯下的所有错误,很大程度上都是因为缺乏智慧,或者说是缺乏知识,这两者是息息相关的。因此,提高人们的智慧只会使事情变得更好,这就像公共教育、书籍、互联网本质上是有益的,甚至如果管理得当,社交网络也是有好处的,尽管这很难,但是这是可行的,因为它促进了信息与知识的交流和传播。
人工智能将使人类变得更加智慧,我常用的一个类比是,人工智能可能带来的变革,在人类历史上的类似事件是印刷术的发明。 它让每个人都变得更加智慧,书籍变得比以往任何时候都便宜,因此更多人有了学习阅读的动力,这在以前并不常见,人们变得更加智慧,它使得启蒙运动成为可能,如果没有印刷术,就不会有启蒙运动,它促进了哲学、理性主义的发展,帮助人们摆脱宗教教条,并促成了民主、科学的发展,而如果没有这些,如果当初没有发明印刷术,或许美国革命和法国革命都不会发生,我们可能仍旧生活在封建社会之中。
印刷术彻底改变了世界,因为它让人们变得更加明智,开始学习和了解周围的世界。然而,它也引发了欧洲长达 200 年的宗教冲突,因为人们最初阅读的是圣经,他们开始意识到自己对圣经的理解与牧师传达的内容存在差异。这催生了新教运动,并导致了教派之间的分裂。其实,天主教会并不赞成印刷术,但他们也无法阻止它的普及。因此,印刷术既带来了负面影响,也有其积极的一面。我相信,今天没有人会说印刷术的发明总体上是负面的,尽管它曾引起了欧洲 200 年的宗教纷争。
再来看一个与之相对的例子,我本以为我提出的这个类比很有创见,但后来发现有人比我先想到了这个比较。奥斯曼帝国禁用印刷术长达 200 年,但这个禁令并非针对所有语言,只是针对阿拉伯语。在奥斯曼帝国,其他语言如拉丁语或希伯来语是允许印刷的,仅仅阿拉伯语不行。我本以为这是因为统治者想要控制人民思想和宗教教义,但后来与阿联酋 AI 部长奥马尔交流后得知,原因还包括了为了保护书法家这一艺术行业。书法家们形成了一个强大的行业协会,他们精心书写阿拉伯诗歌和宗教文本,这是一种非常有影响力的艺术形式。他们控制着帝国的大片领土,显然不能就这么让他们倒闭,因此他们开始大力支持印刷业,部分原因是为了维护自己的商业利益。
现在将这个情况比作 AI 的话,我们通过禁止 AI 来保护谁?是谁在要求对 AI 加以管制以保护自己的工作?的确,这是一个很实际的问题,关于像 AI 这样的技术变革,会对就业市场和劳动力市场产生怎样的影响。有些经济学家比我更懂这个,但当我和他们交谈时,他们告诉我,我们不会因此而失去所有工作,这不会引发大规模失业,只是不同职业逐步转变的过程。
10 到 15 年后哪些职业会成为热门,我们现在还无法预见,就像如果回到 20 年前,谁能预料到 20 年前,甚至是 5 到 10 年前最炙手可热的工作会是移动应用开发者?智能手机那时候还没问世。
莱克斯·弗里德曼(Lex Fridman):
未来很多工作可能会出现在元宇宙中。
杨立昆(Yann Lecun):
这是有可能的。
莱克斯·弗里德曼(Lex Fridman):
但关键是我们无法预测未来。你说得对,你提出了许多有力的论点。我相信人性本善,因此如果 AI,尤其是开源 AI 能让人们变得更聪慧,那么它只会增强人类的善良本性。
杨立昆(Yann Lecun):
我也有同感。我认为人们本质上是好的,实际上,很多悲观主义者之所以悲观,是因为他们不相信人性本善,他们要么不信任人们,要么不信任机构会做出正确的决策,从而引导人们正确行事。
莱克斯·弗里德曼(Lex Fridman):
不过我相信你和我都对人性有信心,我想我也代表很多人感谢你推动开源运动,推动 AI 研究。 开源不仅让人们能够使用这些资源,而且还让模型本身变得开源,因此感谢你为此做出的贡献。同时,我也要感谢你以这样绚丽和生动的方式在网络世界表达自己的观点。我希望你能一直保持下去,因为你是我所知道的最有趣的人之一,也是我非常喜欢的一个人。因此,非常感谢你再次接受我的采访,并且感谢你一直保持真我。
杨立昆(Yann Lecun):
谢谢 Lex。
莱克斯·弗里德曼(Lex Fridman):
谢谢大家收听我与 Yann Lecun 的这次对话。现在,我想引用 Arthur C. Clarke 的一段话作为结束:唯一了解可能性边界的方式,就是突破它们,走向不可能。( The only way to discover the limits of the possible is to go beyond them, into the impossible. ) 感谢您的聆听,期待下次再会。
参考链接: