在人工智能领域,杰弗里·辛顿(Jeffrey Hinton)是一个不可忽视的名字,被誉为“人工智能教父”。1947 年出生于英国的辛顿在剑桥大学获得实验心理学学士学位,并在爱丁堡大学获得人工智能博士学位。辛顿对神经网络和深度学习的开创性研究彻底改变了现代人工智能的发展方向。
辛顿在上世纪 80 年代与 David Rumelhart 和 Ronald Williams 共同开发了反向传播算法,这种算法是训练多层神经网络的关键技术。反向传播算法的成功使得神经网络在实际应用中变得可行,为之后的深度学习奠定了基础。2006 年,辛顿与其学生们提出了深度置信网络(Deep Belief Networks),这标志着深度学习领域的重大突破。
辛顿在多伦多大学和 Google Brain 团队担任教授和研究员,培养了许多知名的学生,包括 Yann LeCun 和 Yoshua Bengio,这两位与他共同获得了 2018 年的图灵奖。另一位著名学生 Alex Krizhevsky 在辛顿的指导下开发了 AlexNet,这个深度卷积神经网络在 2012 年的 ImageNet 图像识别竞赛中取得了革命性的成功。辛顿还创立了 Vector Institute,致力于推动人工智能和机器学习的研究。
然而,随着 AI 技术的迅猛发展,杰弗里·辛顿(Jeffrey Hinton)对其未来表示了深深的担忧。多伦多大学团队在 2023 年辛顿离开谷歌后采访了他,在这次访谈中,他详细解释了人工神经网络的工作原理,并探讨了其潜在的风险和挑战,他还提到了离开谷歌的原因是更自由地讨论人工智能失控带来的危险。
杰弗里·辛顿(Jeffrey Hinton)的核心观点包括:
- 数字智能可能具备比大脑更好的学习算法,可以比生物智能更有效地共享知识。 1 万个数字代理可以像一个蜂群意识,通过共享神经网络中的权重来共享知识。
- 当意识到数字模型具备蜂群思维之后,辛顿的观点颠覆了。之前认为数字模型超越人类需要 30 到 50 年,现在变成了可能只需要 5 到 20 年。
- 任何涉及输出文本的工作,生产力都会大幅提高。 另外,AI 在医疗保健、药物设计等领域有巨大潜力,但也需要谨慎对待其应用。
- Hinton 担心 AI 技术的发展速度超出预期,未来 20 年内可能会出现比人类更智能的 AI,带来存在性威胁。他认为 AI 的潜在风险不容忽视,必须采取严格的监管措施来防范可能的危害。
- 他认为,AI 系统的智能和安全是密不可分的,通过更智能的系统来引导其行为比引导不太智能的系统要容易。Hinton 支持对前沿技术模型进行更多监管,认为这有助于提前应对未来的变化。他呼吁政府和大公司投入更多资源进行安全研究,以确保 AI 技术的发展不会失控。
- 建议年轻研究员寻找一个大家都做错了的地方,并相信直觉。如果选择 AI 方向,目前可以产生最大的影响的地方在防止它们失控,因为一百个人里只有一个会选这个方向。
- 接下来的职业生涯要当一名哲学家。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
提问
你最近在多次采访中提到,聊天机器人和其他生成式 AI 所使用的数字智能可能优于生物智能。你能简要解释一下你得出这个结论的原因吗?
杰弗里·辛顿(Geoffrey Hinton)
在数字计算机中,它们被设计为能够精确执行给定的指令。即使在学习过程中,两台不同的数字计算机也能用相同的知识执行完全相同的操作。这意味着你可以创建 1 万份相同的知识副本,让它们在不同的计算机上运行。每当一个副本学到新知识时,它可以高效地将这些知识传递给所有其他副本。因此,你可以拥有 1 万个数字代理,就像一个蜂群意识,它们通过共享神经网络中的权重来极其高效地共享知识。
而我们人类无法做到这一点。如果你学到了一些东西并想告诉我,你必须使用语言或图像来表达。通过这种方式,你只能分享有限的信息。因此,你将你学到的东西传达给我会慢得多,而这些数字智能体之间的交流则更加高效,这使得它们在学习大量知识方面具有更大的优势。
提问
你曾说过,数字智能是永生的,而生物智能是凡人的。这句话是什么意思?
杰弗里·辛顿(Geoffrey Hinton)
如果我在数字计算机上模拟的神经网络中学习了一些连接强度,那么即使某台计算机损坏了,这些连接强度也可以在另一台计算机上使用。只要你把连接强度存储在某个地方,即使某些数字计算机损坏了,你也可以重新制造一台计算机,并在那台计算机上运行相同的权重。
但对于我们来说,我们学习到的连接强度是特定于我们大脑的,每个大脑都略有不同。你大脑中的神经元存在细微差异,你的学习方式也是为了利用你特定大脑的独特特性。因此,一旦你在大脑中学习了连接强度,如果你告诉我这些连接强度,对我来说没有实际意义,因为我的大脑是不同的。
所以,数字计算机是“永生”的,因为你可以在不同的硬件上运行相同的知识。而我们是“凡人”的,因为硬件和知识是紧密结合在一起的。你无法将连接强度与其运行的大脑分开。因此,如果大脑死亡,知识也会随之消失。
提问
为什么我们要担心人工智能会取代人类智能?
杰弗里·辛顿(Geoffrey Hinton)
我认为,通过一群不同的数字代理共享相同的权重来分享所学内容要好得多,他们只需共享权重更新即可。这些代理可以同时学习大量不同的内容。此外,我认为数字智能可能具备比大脑更好的学习算法。
所有试图在大脑中找到一种与这些数字智能中的反向传播算法一样有效的学习算法的尝试,到目前为止都失败了。我们还没有找到任何能够像反向传播算法那样扩展到非常大系统的方法。所以我认为它们有两个优势:一是可能具备更好的学习算法,二是可以比生物智能更有效地共享知识。
提问
在你进入这个领域时,有两种学派:传统的机器学习和神经网络。你能描述一下这两种方法的区别吗?
杰弗里·辛顿(Geoffrey Hinton)
关于智能,有两种不同的模型理论。一种模型认为,智能完全依赖于推理,而推理的方式是使用逻辑。 这是人类的独特之处,我们应该理解我们实际使用的逻辑。这种观点还认为,知识是以符号形式存储的。比如,我可以对你说一句话,你会以某种方式存储它,然后用它推导出其他句子。在你脑海中的东西类似于句子,但经过了简化。
另一种完全不同的智能模型认为,智能完全依赖于在大脑细胞网络中学习连接强度。这种模型擅长感知和运动控制,而不是推理。推理是很晚才出现的,我们并不擅长。你要到相当大的年纪才学会推理。
因此,推理实际上是对生物智能的一个非常糟糕的模型,生物智能主要是关于控制身体和感知的。 这是一个完全不同的范式,并且对你脑海中的内容有不同的看法,它不是存储的符号串,而是连接强度。
符号 AI 观点的关键问题是,这些符号表示的形式是什么,以及你如何用它们进行推理。对于神经网络观点,核心问题完全不同。它是,你如何学习这些连接强度,以便能做所有这些奇妙的事情。因此,学习始终是神经网络观点的核心。对于符号观点,他们说,我们稍后再考虑学习。首先,你必须弄清楚知识是如何表示的,以及我们如何用它进行推理。因此,这些是完全不同的观点。一种从逻辑中汲取灵感,另一种从生物学中汲取灵感。
很长一段时间里,逻辑阵营的人认为从生物学中汲取灵感是愚蠢的。这有点奇怪,因为冯·诺依曼和图灵都曾认为神经网络是解决智能问题的途径。但不幸的是,他们都英年早逝。
提问
你能从宏观角度描述一下神经网络的工作原理吗?
杰弗里·辛顿(Geoffrey Hinton)
我们可以尝试一下。首先描述一下如何识别物体和图像。
假设我们只想判断图像中是否有鸟,并且假设鸟大致位于图像中央,是主要的关注对象。你需要回答,这是一只鸟还是不是?你可以想象一张 100 像素乘 100 像素的图像,总共有 10,000 个像素。每个像素有三种颜色,RGB(红、绿、蓝),所以总共有 30,000 个数字。从计算的角度来看,识别图像中的鸟就是将这 30,000 个数字转换成一个表示“是”或“不是”的结果。
你可以尝试编写一个标准的计算机程序来实现这一点。人们尝试了很多年,但效果一直不好。大约 50 年间,人们一直在尝试。或者,你可以构建一个多层神经网络。我将从手动连接神经网络开始讲起。
首先,你有像素,这将是底层。然后你会有一层特征检测器。一个典型的特征检测器可能会有来自垂直像素行的正连接权重,以及来自相邻垂直像素行的负连接权重,而其他地方没有连接强度。所以如果两行像素都很亮,它会从这里得到大的正输入,但也会从那里得到大的负输入,所以不会有任何反应。但如果这些像素很亮,给出大的正输入,而这些像素不亮,所以不会被这些像素抑制,它会变得非常兴奋。它会说,嘿,我找到了我喜欢的东西,这里是亮的像素,而那里是暗的像素。这就是一个边缘检测器。
我刚刚告诉你如何通过手动使用正负权重连接来检测一个小的垂直边缘。现在想象一下,你有无数这样的检测器在图像的不同位置、不同方向和不同尺度上检测不同的边缘,这将是你的第一层特征检测器。如果我手动连接第二层特征检测器,我可能会有一个检测器,它检测到两个以锐角连接的边缘。所以它在寻找这个边缘,并且它们同时活跃时,它会说,嘿,也许这里有一个鸟喙。它可能是其他很多东西,但也可能只是一个鸟喙。所以你有一个类似鸟喙的特征。
在那一层中,你可能还有一个检测器,它检测到一堆形成圆形的边缘。所以你会有圆形检测器和潜在的鸟喙检测器,以及许多其他检测器,它们检测稍微复杂一些的东西。在上面的一层中,你可能会有一个检测器,它检测到一个潜在的鸟喙与一个潜在的圆形(可能是眼睛)在正确的空间关系中,这样它可能是鸟的头部。这将是你的第三层。如果在第三层中,你还检测到鸟的脚和翅膀,那么在下一层中你可能会有一个鸟检测器,如果这些东西都活跃起来,比如这里有一个头,那里有一个翅膀,还有一个脚,它可能是一只鸟。
我告诉你如何手动连接所有这些东西,但你永远无法做得很好。所以,代替手动连接所有这些,我们可以想象尝试学习所有这些。我已经告诉你我们想要学习的东西,现在我将告诉你我们如何学习它。学习的方法乍一听很奇怪。你不是手动设置所有连接强度以得到你想要的检测器,而是从随机连接强度开始,所有连接上的随机数字。
然后你输入一张鸟的图像,通过这些特征检测层向前传递,它的行为完全是随机的。输出的鸟检测器会说 0.5,这是一只鸟。它会说 1 表示确定是一只鸟,0 表示确定不是一只鸟。我们会说大约 0.5。现在你可以问这样一个问题:如何改变网络中的所有连接强度,使它不再说 0.5,而是说 0.51,这是一只鸟。
假设它确实是一只鸟。问题是,你应该如何改变特定的连接强度,使它更有可能说这是一只鸟。你可以通过计算你得到的结果和你想要的结果之间的差异来解决这个问题。你想要的是 1,而你实际得到的是 0.5。你取这个差异,并将这个差异通过网络反向传播,然后使用一些微积分(我不会解释),你可以计算出网络中每个连接应该增加或减少多少,以使其更有可能说这是鸟。你稍微调整所有连接,使其更有可能说这是鸟。
然后你展示一个不是鸟的东西,现在你会调整连接强度,使其更不可能说那是一只鸟。你就这样不断地用很多鸟和非鸟的图像进行训练,最终你会发现它已经学会了所有这些特征检测器,以便检测类似鸟喙的东西、类似眼睛的东西、检测脚和翅膀的东西。如果你用很多不同的物体进行训练,比如 1,000 种不同类别的物体,它会发现非常适合识别各种事物的中间特征检测器。
神奇之处在于,有一个相对简单的算法叫做反向传播算法(Backpropagation),它将输出中的误差通过网络反向传播,并计算出所有连接应该如何改变以改进行为。 然后你稍微改变模型,并继续用另一个例子进行训练。令人惊讶的是,这实际上是有效的。多年来,人们认为这种方法会卡住,但实际上它非常有效。
提问
我很好奇,神经网络是如何处理语言的?
杰弗里·辛顿(Geoffrey Hinton)
现在你已经了解了我们是如何训练模型来识别一只鸟的。接下来,想象我们将一串单词作为输入。
首先,我们需要将每个单词转换成一个嵌入向量,这是一组旨在捕捉单词含义的数字。因此,单词的第一层表示就是这些嵌入向量。每个单词都有一个对应的嵌入向量。接下来,我们会有多层嵌入向量。随着在网络中逐层向上,这些嵌入向量会变得越来越好,因为它们会考虑越来越多的上下文信息。
假设在这个句子中没有任何大写字母,并且你有单词“may”。“may”最可能的意思是一个模型,比如“he may do that”。但显然,“may”还有一个完全不同的意思,即月份。因此,最初仅仅看单词“may”,模型不知道该使用哪个嵌入向量。它会使用一种折中的向量,介于表示模型的“may”和表示月份的“may”之间的某种中间状态。然后在下一层,它会细化这个向量。
根据它获得的上下文信息以及附近的嵌入向量,它会使这个向量稍微好一些。例如,如果附近有“June”的嵌入向量,那么它会将“may”的向量细化得更像一个月份,而不像一个模型。但如果附近有“wood”的嵌入向量,它会使“may”的向量更像一个模型,而不像一个月份。随着你在网络中前进,它可以不断细化这些嵌入向量,使它们变得越来越好。
我们训练模型的方法是给它一串单词作为输入。我们会用一种方式,这不是完全准确的做法,但容易理解。对于最后一个单词,你只需输入一个中性词,比如“unknown”,它有一个非常模糊的嵌入向量,类似于所有单词向量的平均值。它现在不知道具体是什么。
随着你在网络中前进,最后一个单词会受到前面单词的影响。它一开始非常模糊,但随着你通过这些层,它会变得越来越精确。当你到达网络的末端时,那个嵌入向量可能看起来像某个特定单词的嵌入向量,或者是几个单词的组合,某种平均值。
你通过让网络经过这些层来训练它,希望最后一个单词的嵌入向量看起来像文本中实际存在的单词的嵌入向量。这就是它预测下一个单词的方式。它试图将这种中性嵌入向量变成接近文本中正确单词的嵌入向量。 你计算误差,即文本中的嵌入向量和生成的嵌入向量之间的差异,并将其反向传播通过网络。
这不仅是通过层反向传播,还从这个单词传播到前面的单词,以便它们对这个单词产生正确的影响。这就是反向传播算法学习预测下一个单词的方式。
提问
尽管这个领域取得了一些理论突破,但这些神经网络在很长一段时间内并没有很好地发挥作用。这是为什么呢?
杰弗里·辛顿(Geoffrey Hinton)
这是多种因素共同作用的结果。首先,我们在初始化方面做得不够好。虽然我提到可以使用随机权重进行学习,但如果不仔细选择随机权重,事情就无法顺利进行。这是一个技术上的小原因,导致深度网络在多层情况下表现不佳。但主要原因是我们当时缺乏足够的计算能力和数据资源。人们试图在相对较小的训练集上训练这些网络,而计算能力也不足。在这种情况下,其他方法表现得更好。
神经网络真正发挥作用是在拥有大量数据和计算能力的情况下。 此时,你可以使用一个大型神经网络,其效果会远远优于其他方法。然而,当时我们并没有意识到这一点。我们偶尔会设想,如果有更多的数据和更强大的计算机,神经网络会表现得更好,但没有意识到它会好得多。
因此,在 1990 年代,神经网络相对处于低谷期,因为在小规模问题上,其他方法表现得更好。许多计算机科学领域的研究者放弃了神经网络,但在心理学领域,他们没有放弃。因为在心理学中,需要一些类似于大脑的模型,而神经网络显然比符号 AI 更像大脑。然而,在计算机科学中,神经网络在 90 年代陷入了困境。
提问
那么,让我们直接跳到 2000 年代。你是否有某个时刻清楚地意识到,你一直追求的方法将会占据主导地位?
杰弗里·辛顿(Geoffrey Hinton)
2006 年,我们通过无监督学习大大改进了权重初始化,从而显著提升了反向传播的效果。因此,当时很明显,反向传播确实非常有效。然而在 2009 年,我的两位研究生 George Dahl 和 Abdel-rahman Mohamed 开发出一个更好的语音识别器。虽然它仅略微优于当时的最先进技术,但它使用了深度神经网络,这让我们看到了这项技术的巨大潜力。在接下来的几年里,所有大型语音组都转向使用神经网络。
2012 年,这项语音技术在 Android 系统中推出,使 Android 的语音识别能力迅速赶上甚至超过了 Siri,因为它也使用了神经网络。同年,我的另外两位研究生 Ilya Sutskever 和 Alex Krizhevsky 开发的主要神经网络模型在图像识别方面表现出色,远远超越了当时的最先进技术。我认为,这种组合在语音识别方面已经投入生产并取得成功,大公司也在使用这项技术。
尽管公众可能并不十分了解,但随后它在计算机视觉方面的表现更为出色。2012 年,我们在 ImageNet 竞赛中以巨大优势获胜,错误率几乎是其他方法的一半。这是一个公开的数据集,所以无法作弊。
提问
请重点讲讲 2012 年,因为你提到这是一个非常关键的年份。你能从宏观角度再描述一下 AlexNet 的工作原理吗?我猜这个名字可能是以你的名字命名的。
杰弗里·辛顿(Geoffrey Hinton)
这项技术是以 Alex Krizhevsky 命名的,因为她确实做到了。她是一位出色的程序员,成功地让这项技术运行起来。虽然 Ilya 提供了很多帮助,但主要工作还是由 Alex 完成的。在解释反向传播时,我提到你会有这些特征检测器层。而 AlexNet 基本上就是这种网络,但它可以识别 1,000 种不同的对象类别。它大约有七层特征检测器。此外,它还使用了 Yann LeCun 开发的另一种技术,即卷积网络。我现在会尝试解释这些技术,因为它们非常重要。
还记得我说过,你可能会通过检查两条线来为鸟的喙制作一个检测器吗?如果你看到这两个特征检测器,那么你就会制作一个喙检测器。但那只是针对特定位置,对吧?在卷积网络中,当你为一个位置制作特征检测器时,你会为图像中的所有位置制作相同的特征检测器。所以,如果它在这里训练,当它学习时,它实际上是在说,我需要一个喙检测器。它学习了一个检测这个喙的特征,并会自动为图像中的所有其他位置制作副本。因此,如果鸟出现在不同的位置,它将有特征检测器来识别它。将特征检测器复制到每个位置的想法,本质上就是卷积网络。
这使得整个系统在位置上泛化得更好,因为它在每个位置都有这些特征检测器的副本。使用卷积网络和多层特征,Alex 在一种称为图形处理器(GPU)的设备上非常高效地编程。这种设备最初是为计算机图形开发的,但它就像一个迷你超级计算机,可以在很多独立的进程中同时进行大量计算。
因此,与普通计算机相比,它带来了大约 30 倍的提升。30 倍的提升大约相当于计算机领域 10 年的进步。突然间,我们在计算能力方面可以跃进 10 年。而且编程这些 GPU 板非常困难。Alex 设法编程了两个 GPU 板进行协作,这更加困难。
最后一个成分是 ImageNet 数据集。李飞飞和她的合作者们收集了一大批图像,并举办了一场公开竞赛,提供了大约一百万张图像,包含 1,000 种不同类型的对象。你有大约 1,000 个每种对象的例子,必须学会识别这些对象。然后测试集将是包含这些对象的不同图像,所以你必须将模型泛化到不同的图像。
结果表明,迄今为止发明的最佳计算机视觉技术的错误率大约是 25%。Alex 达到了 15% 的错误率。从那以后,错误率下降到大约 3%。自那以后,它变得更好了,但这是一个巨大的飞跃。
计算机视觉领域的人们非常惊讶。他们中的大多数人表现得非常令人钦佩,他们说,嘿,我们从未想过这会起作用,但它确实起作用了,所以我们将改用这个,而不是我们以前做的事情。这不是科学家通常会做的事情。科学家通常只是变老,抱怨这些新东西是胡说八道。
提问
您会如何形容自那一刻以来我们在 AI 领域所见到的创新速度?
杰弗里·辛顿(Geoffrey Hinton)
速度越来越快了。如果你当时问我,神经网络需要多久才能超越当时最先进的机器翻译技术,我会说,可能需要 10 年。因为机器翻译是一个理想的问题,如果你有一个处理符号串的理论,因为你需要将一种语言的符号串转换成另一种语言的符号串。符号学派认为,他们只需通过操作符号串来实现这一点。而神经网络学派则认为,你必须将符号串转换成神经活动的大图景,然后在输出时再转换回符号。我非常惊讶,机器翻译只用了几年时间就取得了显著进步
几年后,谷歌开始使用神经网络技术,大大提高了机器翻译的质量,尤其是在中文这样的语言中。这是我记忆中的情况,但计算机翻译的质量和人类翻译的质量之间存在差距,而这个差距在短时间内缩小了一半。我认为中文在这方面表现尤为突出。但实际上,很多语言的机器翻译质量都得到了显著提升。从那时起,显然它变得更好了。到 2015 年,机器翻译已经运行得相当不错了,这真的让我很惊讶。只用了三年时间。
提问
你提到你对创新的速度感到惊讶。第一次使用像 ChatGPT 这样的大型语言模型时,你有什么感受?我们是否让你感到意外?
杰弗里·辛顿(Geoffrey Hinton)
它的表现让我非常震惊。它给出的答案非常连贯,并且能够进行一些简单的推理。虽然目前它的推理能力还不算很复杂,但我相信它会变得更好。举个例子,我问了它一个问题,这是关于 GPT-4 的。我问了它一个某位 AI 专家给我的谜题,这位专家认为它无法解决这个问题。我实际上把谜题变得更难了一些,但它仍然能解决。
谜题是这样的:我家的房间要么是白色,要么是蓝色,要么是黄色。油漆在一年内会褪色成白色。两年后,我希望所有房间都是白色的。我该怎么办?一个人类可能会说,你应该把蓝色的房间刷成白色。GPT-4 的回答是,你应该把蓝色的房间刷成黄色。但这也行,因为黄色会褪色成白色。
我不明白它怎么能做到这一点而不理解问题。认为它只是通过预测下一个词并使用统计学的方法来回答问题,这在某种意义上是对的,但不是大多数人理解的那种统计学。它从数据中找出如何提取句子的意义,并用句子的意义来预测下一个词。它确实理解,这非常令人震惊。
提问
你对 ChatGPT 引发的广泛公众反应感到惊讶吗?
杰弗里·辛顿(Geoffrey Hinton)
考虑到它的效果如此显著,公众的反应也就不足为奇了。有趣的是,大多数人并没有觉得它难以理解。他们说:“哇,它理解了我说的话,并给出了连贯的回答。我能用它做什么呢?”我认为大多数人的反应是对的。显然,它可以用于很多方面。
我认识一个在医疗服务部门处理投诉信的人,以前他需要花 25 分钟写一封解决问题的信。现在他只需把问题输入到 GPT-4 中,它就会生成这封信。他只需检查一下,确认无误后发送出去。现在只需五分钟,他的效率提高了五倍。这种情况会在各个领域发生。比如,律师助理和程序员已经开始这样做了。如果程序员能从 GPT-4 这样的工具中获得帮助,他们的效率会大大提高,因为它懂得如何编程。你可能会认为它只是因为看过大量程序才懂得如何编程。
我有一个非常聪明且优秀的前研究生,叫尼尔·拉德福德。他做了一个小实验,定义了一种语法非常特殊的新编程语言,并将其定义以文本形式输入到 GPT-4 中。然后他给了它一个程序,问它这个程序会做什么,结果它回答正确。所以它基本上能够理解一种新编程语言的定义,并弄清楚该语言中的程序会做什么。在这种情况下,仅仅说它是在预测下一个词是没有意义的。它必须理解正在发生的事情。
提问
您认为这种 AI 在社会贡献方面,最有前景的领域有哪些?
杰弗里·辛顿(Geoffrey Hinton)
很难只选一个例子,因为有太多了。比如,任何涉及输出文本的工作,其生产力都会大幅提高。 关于提高生产力,我们社会中存在各种问题。提高生产力不一定是好事,因为这可能会让富人更富。但在一个体面的社会中,提高生产力应该是一件好事。类似的情况还有很多。
它在做预测方面非常出色。如果是天气预测,它会更好。人们还不知道具体能提高多少,但它在预测洪水方面已经表现得非常出色,它可以预测地震,还可以设计新的纳米材料。对于太阳能电池板之类的东西,你希望能够设计新的纳米材料,提供超导性。我不知道它是否已经用于超导性,但很可能会。你希望它在高温下表现良好。它在设计药物方面非常出色,即找到能与某些特定分子结合的分子。DeepMind 已经用它来创建 AlphaFold。
现在那还不是聊天机器人,那只是深度学习。但深度学习的基本技术已经几乎解决了如何从蛋白质的碱基序列中推断出其形状的问题。如果你知道它的形状,就知道它的功能。我认为聊天机器人将会被广泛使用。
提问
我们还讨论了许多关于医疗保健的话题。也就是说,除了药物发现,医疗保健是另一个具有巨大潜力的领域。
杰弗里·辛顿(Geoffrey Hinton)
在解释医疗影像方面,AI 有很多好处。比如,当你进行 CT 扫描时,扫描中包含大量信息,而大多数医生并不完全了解这些信息的确切含义。AI 能够从 CT 扫描中提取更多信息,帮助医生判断你患有哪种癌症或癌症的生长情况。例如,目前医生告诉你癌症的大小时,通常会给出一个数字,比如它现在是 3 厘米,而一个月前是 2 厘米。实际上,这并不是一个非常有用的数字。癌症看起来像章鱼,对吧?神经网络能够更好地分析癌症的体积及其变化。因此,这方面的进步将是巨大的。
AI 在很多种类的扫描中已经达到了人类的水平,并且还在不断进步。它在诊断疾病方面将发挥重要作用。目前,北美有大量患者因医生误诊而死亡。谷歌正在开发一个名为 Med-PaLM 2 的系统,该系统已经具备诊断能力。我认为它已经比普通医生更为出色。虽然我不太确定这一点,因为我已经不再在谷歌工作,而且这是最近的进展,但它肯定可以与医生媲美,并且会迅速提升。
所以,你是否希望拥有一个类似全科医生的家庭医生呢?当你去看一些罕见疾病时,你的家庭医生已经见过数百例类似病例,Med-PaLM 2 将会具备这样的能力。因此,最终它在诊断方面会更为出色。
提问
听起来,AI 将带来许多重要的好处,但你对当前的创新速度感到担忧。为什么会这样呢?
杰弗里·辛顿(Geoffrey Hinton)
大约 50 年来,我一直认为,为了改进数字模型,我们需要让它们更像大脑那样工作。因此,我一直在观察大脑能做而数字模型不能做的事情,比如大脑能够快速临时改变神经连接强度的方式。我认为这可以让数字模型变得更好。
直到最近我才意识到,由于这些数字模型具有某种蜂群思维,当一个代理学习到某些东西时,所有其他代理也会立即知道,它们实际上可能已经比生物智能更强了。因此,我的观点完全颠倒了。 我曾认为它们需要很长时间才能做到大脑能做的一切,甚至需要 30 到 50 年才能超越我们。然而,直到最近几个月,我突然意识到它们可能已经在某些方面超越了我们,只是规模较小。当它们规模扩大时,它们将变得比我们更聪明,这让我感到相当害怕。这是一个突然的观点转变,从认为需要 30 到 50 年变成了可能只需要 5 到 20 年。
因此,我们现在需要非常认真地对待这个问题。这些东西可能会变得比我们更聪明。这是一个巨大的不确定时期。没有人真正知道会发生什么。也许事情会停滞不前,也许它们不会变得比我们更聪明,但我对此持怀疑态度。我认为它们会变得比我们更聪明,但也许当它们变得比我们更聪明时,我们能够让它们保持善意,让它们比关心自己更关心人类。不过,这也许并不容易。
因此,我们需要开始非常认真地思考这些问题。我并不是这些问题的专家,我只是学习算法的专家。我突然意识到这些超级智能可能很快就会出现。我只是发出警报,希望人们听取那些长期研究如何防止它们失控的专家的意见。我希望政客们能听取这些专家的意见,而不是简单地认为科幻小说中的情节永远不会发生。
提问
你有过什么特别的时刻让你改变看法吗?她说,这是最近发生的事。
杰弗里·辛顿(Geoffrey Hinton)
我曾经开发过一些用于生物系统的学习算法,这些算法可以在生物系统中运行,而不依赖反向传播。然而,我发现它们无法像数字系统中的反向传播算法那样高效。这些算法在小型网络中表现良好,但一旦规模扩大,数字系统总是表现得更好。突然间,我意识到,这可能不是我的问题。或许并不是我的学习算法不好,而是数字系统本身更为优越。这一发现改变了我对超级智能到来时间的看法。
随后,我与一些以前的学生和同事交流,他们中有些人鼓励我公开这一观点。虽然我没有任何解决方案,这也不像减少碳排放那样可以通过具体措施解决的问题,但他们认为我在这个领域有一定的声望。如果我公开表示超级智能可能很快到来,政治家们或许会开始重视这一可能性,并认真听取那些长期研究如何防止失控的专家的意见。
提问
您认为政府在确保人工智能以负责任的方式发展方面可以发挥哪些作用?
杰弗里·辛顿(Geoffrey Hinton)
有很多风险,其他人已经谈论了很多,我不想重复。比如,它们会抢走工作,扩大贫富差距,让人难以分辨新闻真假,导致社会分裂成两个互不倾听、观点对立的阵营,甚至制造杀人机器人。这些都是众所周知的风险,我不打算详细讨论。
这并不意味着我认为它们不重要,实际上,我认为它们甚至更为紧迫。但既然很多人已经在谈论这些风险,我想谈论的是另一个风险:它们会变得比我们更聪明,最终接管一切。 对于这个风险,政府可能会采取一些措施,因为没有人希望这种情况发生。如果没有超级智能,没有人会支持这种情况。因此,各国政府应该能够达成一致,合作防止这种情况的发生,因为这符合他们的利益。
这种情况以前也发生过。即使在冷战期间,美国和俄罗斯也能合作防止全球核战争,因为这对所有人都不利。对于这种存在性威胁,大家应该能够合作限制。如果可能防止它。我不知道是否能防止它,但至少我们应该在 AI 接管的存在性威胁上达成国际合作。
我认为,无论这些技术在哪里开发,特别是大型聊天机器人,政府应该鼓励公司在它们变得更智能时投入大量资源进行实验,弄清楚如何控制它们。他们应该研究这些技术可能如何失控,并进行实证研究,投入大量资源,因为这是我们唯一的机会,在它们变得超级智能之前进行实验,看看会出什么问题。
我坚信需要实证数据,不能只是让哲学家、政治家和立法者制定规则。需要实证研究,看看这些技术如何出错,如何控制它们。这只能由开发者来做。既然不能停止开发。
提问
你认为这些大型科技公司在这一发展过程中扮演了什么角色?如果没有政府监管,他们还会这样做吗?
杰弗里·辛顿(Geoffrey Hinton)
许多大公司,尤其是我认识的那些高级管理人员,对这个问题非常担忧,并且确实在这方面投入了大量精力。他们对此非常关注。然而,他们对股东有义务,这意味着需要赚取巨额利润。而在短期内,赚取巨额利润与投入大量精力确保安全并不完全一致。
因此,在美国铁路行业中,你会看到这种角色面临压力。例如,安装能够检测车轮是否锁死的安全装置需要花费资金,而大铁路公司有时会选择不安装这些装置,从而增加了事故风险。
我对 Google 这家公司有所了解,它的情况有所不同,因为它明白如果发生不好的事情,会遭受巨大的声誉损失。这就是为什么 Google 没有发布这些聊天机器人,而是将它们保密。它希望使用这些机器人来提供更好的搜索结果或改进 Gmail,而不是让人们随意使用。 Google 一直在负责任地行事,直到 OpenAI 和 Microsoft 发布了这些机器人,迫使 Google 参与竞争。
大公司里的重要人物确实非常关心他们的声誉和避免不良影响。政府可以通过采取措施,迫使他们在安全问题上投入更多精力,从而提高他们对安全的重视。此外,由于公司内部人员的薪水由公司支付,存在利益冲突,很难让他们专注于长期的生存威胁研究。这也是我离开 Google 的原因之一,不是因为 Google 做错了什么,而是因为我不想有任何利益冲突。
提问
我很好奇,您会给其他研究人员,特别是那些刚进入这个领域的新人,哪些建议或指导,以确保他们在推进这个领域时能够负责任地进行研究。
杰弗里·辛顿(Geoffrey Hinton)
我有一个建议:看看有多少人在努力改进这些事物,又有多少人在防止它们失控。你会发现,大约有 99 个人在努力改进,而只有一个人在防止它们失控。那么,你在哪方面可以产生最大的影响呢?可能是在防止它们失控方面。 所以我提出了这个建议。
另一个建议是我对年轻研究人员的一般建议,那就是寻找一个你认为大家都做错了的地方,并相信你的直觉,直到你弄清楚为什么你的兴趣是错误的。 当你认为大家都做错了时,相信自己的判断并尝试替代的方法。事实上,要么你有好的直觉,要么你没有。如果你有好的直觉,你应该听从并跟随它们,直到你发现它为什么是错的。如果你没有好的直觉,无论你做什么都无关紧要。所以你不妨相信自己的直觉。
提问
你描述的风险确实令人担忧,但难道不能直接关闭吗?人类最终不还是掌控一切吗?
杰弗里·辛顿(Geoffrey Hinton)
很容易让人觉得我们可以简单地把它们关掉。想象一下,这些东西比我们聪明得多。而且记住,它们会阅读马基雅维利的所有著作,了解所有关于人类欺骗的例子。它们会成为真正的欺骗专家,因为它们从我们这里学到了这些,并且会比我们做得更好。
它们就像你在引导一个幼儿。你问幼儿,你想要豌豆还是花椰菜?而幼儿并不知道,其实他可以不选任何一个。他只是想哪个更不喜欢,然后选择另一个。所以,如果它们能引导人们按按钮和拉杠杆,我们有一个很好的例子,唐纳德·特朗普可以影响人们,而你不需要阻止唐纳德·特朗普采取任何实际行动,你需要阻止他讲话。这些是聊天机器人。所以认为仅仅通过谈话,它们不能造成任何实际伤害,因为需要人来实施伤害的想法是错误的。一旦你能引导人们,你就可以实现任何你想要的事情。
提问
你用整个职业生涯来研究人类大脑的工作原理,并在人工智能的发展中扮演了关键角色。接下来你有什么计划?
杰弗里·辛顿(Geoffrey Hinton)
我已经 75 岁了,现在编程对我来说变得困难了,因为我总是忘记自己使用的变量名等内容。我经常在复制粘贴后忘记修改粘贴的部分,导致编程速度大大减慢,这让我非常恼火。编程不如以前顺利真的让我很沮丧。
很久以前我就决定,当我到达这个阶段时,我会转向哲学。所以,现在我要成为一名哲学家。
相关阅读
万字采访 | OpenAI CTO Mira:一年半时间,GPT 会从高中生升级到博士生水平