在 2023 年的 MIT EI 研讨会上,OpenAI 的研究科学家郑炯元(Hyung Won Chung)发表了题为“Don’t teach,Incentivize(不要教,要激励)”的演讲。Chung 在演讲中强调了激励 AI 自我学习的重要性,而不是通过传统的教学方法来传授知识。他认为,AGI(通用人工智能)所需的技能过于广泛,无法一一教授,因此需要通过激励机制来引导 AI 自主学习和探索。
Chung 打了一个比方:“授人以鱼不如授人以渔”,如果你试图解决数以万亿计的任务,那么通过学习通用技能(如语言理解、推理)来解决这些任务可能会更容易。
他还提到,面对有限的时间,人类可能需要在专家或通才之间做选择,但对于机器来说,算力可以创造奇迹。通过大规模的训练和学习,大型通用模型能够快速适应和掌握新的任务和领域,而不需要从头开始训练。Chung 认为,机器应该有更多的自主性来选择如何学习,而不是被限制在人类理解的数学语言和结构中。
郑炯元(Hyung Won Chung)的核心观点包括:
- 计算资源的指数增长:计算能力的指数级增长为 AI 研究提供了前所未有的计算资源,这要求 AI 研究者开发出更具可扩展性的方法,以充分利用这些资源。
- 激励机制的重要性:当前语言模型的核心训练机制——预测下一个词元——通过隐性激励模型学习通用技能,从而在数万亿种任务上表现出色。
- 扩展性优于结构性:历史上,具有少结构性的方法在扩展时表现出更好的性能,而过度的结构化往往会成为扩展的瓶颈。
- 涌现现象与规模的关系:随着模型规模的增加,会出现新的能力,这些能力的出现有时被视为错觉,但实际是随着规模的增长而自然显现的。
- 重新学习和评估的循环:AI 领域的快速进展要求研究者持续地重新学习和评估旧知识,以适应由更强大的模型带来的新范式和理解。
以下是本期内容的完整翻译,我们作了不改变原意的删减。
模型的可扩展性:精巧结构通常成为瓶颈
主持人
今天,我们非常荣幸地邀请到了来自 OpenAI 的研究科学家 Hyung Won Chung。值得一提的是,他在麻省理工学院(MIT)完成了博士学位,但他的研究方向并非机器学习,而是可再生能源和能源系统。之后,他先后在 Google Brain 和 OpenAI 工作。他因在大语言模型方面的杰出工作而闻名,他曾参与扩展 Flan、Flan-T5、Flan-PaLM 和 T5X 等训练框架上的模型。我非常期待听到他带来的关于这些领域的最新进展。让我们以热烈的掌声欢迎他。
郑炯元(Hyung Won Chung)
感谢大家。我很高兴能回来。今天,我演讲的题目是“不要教,要激励”。我的研究方向是开发通用智能,而不是专门化智能。在这个过程中,我们无法列举出所有希望教给模型的内容。我们希望模型具备的技能太多,甚至我们自己也不完全了解。因此,我认为实现通用智能的唯一可行方法是对模型进行微弱激励,让它自己去探索和学习。
郑炯元(Hyung Won Chung)
在深入讨论之前,我想先分享一下今天演讲的目标,这与大多数技术演讲有所不同。我不会介绍具体的技术内容,如最新的论文或实验结果。相反,我想以 AI 为例,分享我的思考方式。你可能会问为什么,因为我认为我们技术人员过于专注于解决问题本身,而应该更多地关注找到值得解决的重大问题。
在我职业生涯中,见过的最优秀的研究人员并不一定是技术能力最强的人。他们当然很强,但这不是他们的决定性特征。相反,他们知道如何找到最有影响力的问题来解决。我认为这源于他们有一个很好的视角,而拥有良好视角的重要性常常被低估。我希望借此机会分享我的视角,并不是说我的视角很独特,而是希望通过分享,能激发你们中的一些人对这种对话的兴趣。我们作为一个社区,将更多地讨论这个问题,从而在找到更好的问题上变得更好。
郑炯元(Hyung Won Chung)
这次演讲的三个主要内容是:首先,我们将构建一个框架,分享我的观点,我所说的一切基本上都与扩展性有关,稍后我会定义我对扩展性的理解,并通过广泛的 AI 研究来阐述这个观点。接下来,我们会专注于我正在研究的语言模型。以上是整体概览。
郑炯元(Hyung Won Chung)
让我们从整个 AI 领域中最重要的数据点开始。这是 Richard Sutton 去年在主题演讲中提到的内容。X 轴表示从 1900 年到 2020 年的时间,Y 轴表示计算能力,即支付 1000 美元所能获得的每秒计算次数,以对数刻度表示。可以看到,给定金额的计算能力在大约一百年内呈指数增长。换句话说,计算成本在以指数速度下降。
我不知道还有其他任何趋势能像这个一样强劲且持久。每当我看到这种远超我直觉的惊人趋势时,我会想到两点。首先,我不应该与之竞争。其次,我希望在职业和生活的各个方面尽可能多地利用这一趋势。因此,我们看到硬件能力在指数级增长。作为人类,我们中的一些人在开发软件和算法时,应该赶上这一趋势。特别是,我们需要更多可扩展的方法,以更好地利用日益丰富的计算资源。
郑炯元(Hyung Won Chung)
广义上讲,AI 研究人员的工作是教机器如何思考。然而,一种非常常见且令人遗憾的方法是,我们教机器模仿我们的思维方式。但我们是否真的了解自己在基础层次上的思维方式呢?答案是否定的。因此,在这种方法中,我们实际上是在用我们不完全理解的内容和有限的数学语言进行教学。这种方法通常会给问题设定一种结构,而这种结构在进一步扩展时可能会成为瓶颈。
Richard Sutton 的“苦涩教训”总结了这一现象,指出过去七十年 AI 的进展基本上归结为开发越来越通用的方法,减少结构,增加数据和计算能力。换句话说,就是扩大规模。 这是一个非常有力的声明,因为我们已经看到了许多不同类型的进步,但所有这些进步都可以归结为这个非常有力的声明。我完全赞同这一点。事实上,我认为这是 AI 领域中最重要的文章之一,我多次回顾这篇文章。因此,如果你还没有读过,强烈推荐你去阅读。
郑炯元(Hyung Won Chung)
这是我的图示,展示了相同的概念。x 轴表示计算量(计算或数据),y 轴表示性能(某种智能指标)。这看起来像一幅卡通图。
郑炯元(Hyung Won Chung)
我们可以采用两种方法,一种是结构更严格的,另一种是结构较宽松的。我们反复发现,结构更严格的方法通常启动较快,因为结构本身起到了加速作用,这在初期效果显著。但随着规模扩大,这种方法的效果会逐渐减弱。相比之下,结构较宽松的方法在初期效果不佳,因为模型被赋予了过多的自由,无法有效利用这些自由,直到我们提供足够的数据、计算资源和优良的算法。在某个时刻,这种方法会逐渐变得更好。我们称这种方法为更具可扩展性的解决方案。
郑炯元(Hyung Won Chung)
一个具体的例子是,当我们将经典的机器学习算法(如支持向量机,SVM)与深度学习进行比较时,支持向量机更像是一种结构化的方法,尤其是核方法等。我们的模型需要学习如何表示数据。而在深度学习中,我们让模型根据问题自行学习表示方法。尽管这种方法在初期效果不佳,但最终由于其更具可扩展性而胜出。 在深度学习中,我们发现许多层次化的方法更具扩展性,而某些方法则缺乏这种特性。人类研究者提出的精巧结构通常在扩展时成为瓶颈。
从长远来看,好的方法在短期内几乎总是表现不佳。因为我们使用基于学习的方法,并试图给机器尽可能多的自由。因此,从长远来看会胜出的方法在短期内看起来会很糟糕。这与其他科学领域有很大不同。计算机变得越来越便宜,而我们的研究能力提升速度却相对较慢。因此,我们不应该与之竞争,而是应该给机器更多的自由,让它们选择如何学习。这可能与人类认为的智能不同,但我不认为人类智能是上限。我们最终关心的是智能及其创造的价值,所以我们不应该规定它的样子。
郑炯元(Hyung Won Chung)
这个观察对你来说也许显而易见,但对许多人来说却不明显。原因有很多,其中一个是研究人员希望采用建模方法,因为这在学术上更具吸引力。有些人认为,仅仅扩大规模既不科学也不有趣。我经常听到这样的说法:那只是无聊的工程学。
郑炯元(Hyung Won Chung)
我想问大家一个问题:我们为什么要研发 AI?为什么要开发任何技术?我认为,我们的最终目标是创造对人类有益的价值。这比任何科学家的自尊心都更重要。因此,我们应该专注于最大化 AI 所创造的价值,或者在某些情况下,尽量减少其负面影响。 无论哪个学术领域实现了这个目标,这都是我们应该关注的重点。
郑炯元(Hyung Won Chung)
无论我研究了 10 年的内容是否最具可扩展性,现在我必须诚实地面对自己真正追求的目标——创造价值。如果这不是最有效利用计算能力的方法,我应该重新思考并学习新的方法。
郑炯元(Hyung Won Chung)
尽管我的研究主题有所变化,但核心始终是更好地利用计算资源。因此,我一直在广泛讨论扩展问题。我想更精确地定义一下我的意思,因为这与常见的定义不同。通常,扩展被理解为让更多的机器做同样的事情。我认为这种理解是正确的,但不够有趣。我的方法是,首先识别限制扩展的建模假设或归纳偏差,然后用更可扩展的假设替代它。
以 SVM(支持向量机)与深度学习为例,我们希望投入更多计算资源,但 SVM 成为了瓶颈。我们识别出数据表示是瓶颈,并用学习表示替代。我认为这才是真正的扩展,而且更有趣。在我看来,OpenAI 的研究人员确实很好地应用了这种理念。无论有意还是无意,这确实是我们在做的事情。
郑炯元(Hyung Won Chung)
我们拥有如此多的计算资源,无论是现有的还是即将获得的计算资源。问题是,如何有效利用这些资源?实际上,这是一项非常困难的任务。想象一下,如果我给你价值一千亿美元的计算资源,你现在能有效利用它们吗?我认为没有人真正知道该如何有效利用。因此,我们正在探索如何有效利用不断增加的计算资源。这是研究人员的工作。
“大语言模型”不是一个好的术语
郑炯元(Hyung Won Chung)
所以这是我的观点。从现在开始,我要谈论的一切都将基于这些深刻而痛苦的教训。现在让我们来谈谈这些语言模型。我称之为大语言模型(LLM),因为这是一个常见的缩写。但我认为“‘大’和‘语言’这两个词”其实并没有太大意义。“大”是一个非常主观的术语,今天的大模型在几年后甚至明年可能就会变成小模型。而“语言”这个词,我会解释为什么我认为这不是一个好的术语。
郑炯元(Hyung Won Chung)
到目前为止,所有的大型语言模型(LLM)都采用了 Transformer 架构,我们无需深入了解其细节。我们将从一个非常实用的角度来看待 Transformer,将其视为一个序列到序列的映射,包含一系列映射操作。输入是一个向量序列,每个向量的维度为 d,总共有 N 个向量。输出也是相同的,至少在训练期间如此。这种交互通过一系列映射操作完成。由于听众可能来自不同背景,我希望大家能在同一水平线上,快速了解下一个词元预测过程的内容,并探讨这一过程的一些影响。
郑炯元(Hyung Won Chung)
我们从序列模型开始。一个典型的序列是由单词组成的句子。第一步是对句子进行分词,因为我们需要在计算机中表示这些单词,这需要某种编码机制。通常我们使用整数映射的方法。为此,我们定义一个有限的整数集合,比如在这个例子中是 330,000。每个单词或标记都会映射到一个整数,并且在训练过程中不会改变。这样,我们就得到了一个整数序列而不是字符串。接下来,我们可以进行嵌入操作。虽然这不是必须的,但通常是更常见的做法。现在,序列中的每个整数(在这个例子中是标记)都被表示为一个大小为 d 的向量。
郑炯元(Hyung Won Chung)
让我们思考一下对序列模型的期望。序列模型本质上是用来模拟序列中元素之间关系的模型。而 Transformer 是一种特定的序列建模方法,它通过一系列点积计算来建模这些关系。我们取两个元素的表示进行点积计算,如果结果很高,就认为它们在语义上是相关的。对于点积结果较低的情况,我们并不特别关心其语义意义。尽管我们可以尝试理解,但这并不容易或有意义。
通过一系列点积计算后,我们得到相同大小的向量表示。此时,每个向量都了解其他向量的存在,并能够在某种程度上衡量它们之间的相关性,从而对整体情况有更丰富和深入的理解。最后一步是,我们需要一个标量损失函数,因为我们希望使用基于梯度的优化方法。因此,我们得到了这个标量。
郑炯元(Hyung Won Chung)
首先,对损失函数关于模型中所有参数求导,然后使用某种优化算法(如梯度下降法)进行参数更新。这是一个训练步骤,需要重复尽可能多次。这就是训练过程。
郑炯元(Hyung Won Chung)
接下来,我们讨论如何将这个向量表示转换为单一标量,即优化目标函数。在当前的大规模训练中,大多数情况下都会使用某种形式的下一个标记预测。因此,我认为有必要对此进行更详细的探讨。所以我将这句原始句子放回了幻灯片中。我们基本上所做的就是在给定多个第一个标记的情况下,尝试预测下一个标记。
郑炯元(Hyung Won Chung)
如前所述,这种模型从一个有限的词汇表开始,比如包含十万个词条。模型会输出这些词条的概率分布,因此这些概率的总和应该是 1。我们希望模型能够学习到结构,使得下一个词的概率比“intelligence”这样的词更高,因为“many intelligence”没有意义。然后,我们重复这个过程,给定多个词,尝试预测下一个词,直到结束。这就是整个过程。
郑炯元(Hyung Won Chung)
这是一种关于条件概率的思考方式。在给定所有前面标记的情况下,我们尝试预测下一个标记。对于有统计学背景的人来说,这种方法是通过相乘条件概率来计算整个序列的概率。这就是我们需要最大化的目标。
郑炯元(Hyung Won Chung)
这是一个最大似然估计框架,但我认为更直观的理解是将其视为多任务学习,每个任务都基于之前的所有内容来预测下一个标记符号。关键在于,每个预测的权重都是相同的。
郑炯元(Hyung Won Chung)
我们并不真正区分每个 token 的具体含义。在工业应用中,我们只是将大量文本数据输入到 Transformer 中。这就是魔法发生的时刻。那么我们期待什么样的效果呢?这是我们在 Google 工作时撰写的一篇关于 Palm 的论文。我选择这篇论文的原因是,现在人们不再单独报告预训练结果。因此,如果我们想了解下一个 token 预测的历史表现,就必须回到旧论文中寻找答案。
郑炯元(Hyung Won Chung)
在这里,细节并不重要。我们在一些大规模基准任务中展示,仅仅通过预测下一个词,实际上已经超过了许多人的平均表现。对我来说,能够通过预测下一个词,并在这么多不同的任务上表现得更好,这简直是魔法。
郑炯元(Hyung Won Chung)
我不同意,我仍然觉得这非常令人惊讶。我认为我们不应该把它视作理所当然。让我们来看一下对下一个词的预测。我们并没有直接教授这些语言学概念,比如下一个词是动词或其他词类。我们没有做这些事情。但不知为何,仅仅通过预测下一个词,语言就出现了。我认为这几乎是这种测试的副产品,语言就这样被学习了。我甚至会说,教授语言的最佳方式是不教授语言。因为我们不想在机器学习语言时加入任何结构。所以这是一个非常有趣的副产品。
郑炯元(Hyung Won Chung)
这就是为什么我认为在语言模型中使用“语言”这个词有些不妥,因为我们并不是在教授任何语言。语言模型实际上是关于学习特定的知识,而语言只是其中的一种表达方式。 另一个有趣的现象是,即使我们没有专门教授推理、数学和编程等内容,模型仍然能够执行这些任务。
郑炯元(Hyung Won Chung)
我认为,我认识的所有研究人员基本上都有某种假设来解释为什么这些方法效果如此好。然而,在这些方法为何如此有效的问题上,并没有达成共识。我确实有自己的看法,这在思考我的研究项目时对我帮助很大。因此,我想分享一下。我的看法是,这是一个大规模的隐式多任务学习。所谓隐式,是指我们并没有直接指定模型需要执行的多任务,而是通过我们使用的多样化语料库自然形成的。
郑炯元(Hyung Won Chung)
让我们思考一下这个问题。我们现在可能认为语言模型表现得很好,但我认为有必要考虑一下模型在训练过程中所面临的挑战。让我解释一下预测下一个词元的过程。我会展示一个句子,下划线部分是我要预测的内容。在这个过程中,我们尽量减少努力,尽可能使用任何捷径来完成。如果我要预测这个句子,“这部糟糕的电影真的很”,然后试着预测“无聊”,我可能会采取捷径,认为“糟糕”是一个负面的词,所以接下来应该是负面的内容,然后是“电影”,所以我可以用这种模式匹配来得到“无聊”这个词。
郑炯元(Hyung Won Chung)
另一个例子,在财报电话会议结束后,Google 的股价上涨了 5%,从 1000 美元涨至 1050 美元。
郑炯元(Hyung Won Chung)
我在思考,是否可以将从第一个例子中学到的技能应用到这个新任务中?尽管它们并不相关,但我需要学习一种新技能——数学,因为它在这个新任务中非常重要。第三个例子涉及一种完全不同的语言,因此我不能重复使用之前的技能,而需要学习这门新语言。我学到的第三个技能是关于热力学的第一定律,这是我以前最喜欢的话题,通常被称为能量守恒。
授人以渔:逐步激励模型学习通用技能
郑炯元(Hyung Won Chung)
为了预测这一点,我们需要明白不能依赖任何已有的内容,必须学习一种新技能,比如科学知识。当我们在大规模网络上进行这一操作时,涉及的句子数量可能达到数十亿,甚至数万亿。因为每个句子包含多个可能的下一个词,可能有成千上万种选择。我们讨论的是数万亿种可以这样定义的任务类型。如果你试图解决这个问题,即使对于大型模型来说,这也可能是一个难以处理的挑战。
郑炯元(Hyung Won Chung)
我认为,如果我们想以最小的努力实现这一目标,也许更适合考虑学习并应用于尽可能多测试类型的通用技能。 这可能是更简单的路径。
郑炯元(Hyung Won Chung)
如果我们通过增加大量测试类型来提升模型的复杂性,我认为这是探索多任务学习假设在大规模应用中如何运作的有效方法。这样做会更容易理解。所谓的一般技能,首先是指处理这些文本数据的能力。我的意思是,即使我们没有专门教授语言,语言仍然是我们想要学习的内容。因此,我们可能会将数百种语言的数据输入模型。学习所有这些语言至少对理解它们的句法结构非常有帮助。其次,我希望能够理解语言,以便将其应用于几乎所有的句子。
郑炯元(Hyung Won Chung)
预测下一个词。第三,可能更像是通过推理来组合概念。我只是随便说说,但如果我在做这个任务,我可能会考虑这些因素。在某种程度上,这给模型施加了压力。所以,我认为关键在于,我们并没有直接教授这些通用技能,而是通过学习目标和数据激发出来的,这些能力自然就会出现。而这些能力通常更为通用,可能是因为它们是由发展通用技能的需求驱动的。
郑炯元(Hyung Won Chung)
因此,你可能会认为,这种逐步激励模型的方法需要更多计算资源,是一个低效的过程。但我希望你能从另一个角度看待它。它允许我们增加计算资源,从而提升计算能力。这是一种更具扩展性的训练策略,我认为这正是它表现出色的原因。或许我们可以将这个假设稍微泛化一下:对于给定的数据集和学习目标,有一个明确的学习信号和一组引导的激励。因此,对于下一个词元的预测,明确的信号是预测下一个词元。如果这是一个任务,那么引导的激励就是学习通用技能,以便完成尽可能多的任务,比如理解语言、推理等等。
郑炯元(Hyung Won Chung)
还有其他例子吗?比如在棋类游戏中,游戏结束时的奖励是 0 或 1。如果你考虑像 AlphaGo Zero 这样的例子,明确的信号是比赛的胜负,除了这个目标外,我们不教任何其他内容。因此,在这种情况下,隐含的激励是学习什么是好的棋步。模型可能甚至不会直接考虑什么是好的棋步,但它必须知道这些才能赢得比赛。如果我们测试的环境非常狭窄,这可能无关紧要或影响不大。但如果我们使用这种方法,它学到的可能是赢得比赛很重要,而在这个环境中,什么是好的棋步这一概念是非常通用的。我认为我们应该越来越关注这一问题。
郑炯元(Hyung Won Chung)
第三个例子可能更适合当前的情况。我认为错觉是语言模型尚未解决的核心问题之一。 这里有一个例子,我从约翰·斯托克那里得到,并根据我的需要进行了调整。
郑炯元(Hyung Won Chung)
对于简单问答任务,如果模型在回答简单问题时出现错误,我们可以定义如下的奖励机制:答案正确且确定无疑时,奖励 1 分;答案正确但模型表示不太确定,例如“可能是这样”,则奖励 0.5 分。
郑炯元(Hyung Won Chung)
如果模型回答“我不知道”,零分,这是一个重要的回答类别。如果答案模棱两可但错误,是负 2 分;如果模型非常自信地给出了错误答案,负 4 分。那么,这种结构的明确信号是什么?就是我们是否正确回答了问题。这是明确的信号。但如果我们用数万亿个问题来进行这种操作,会诱导出什么呢?模型需要知道它不知道的东西。
让我解释一下这是什么意思。如果我给你一百个问题,你知道自己不知道其中的 50 个,你可以记住这些问题和答案。但如果我给你数万亿个问题,那么与其跟踪每一个问题的答案,不如考虑什么是知道某事,什么是不知道某事的概念。这种能力可能会从这种激励结构中自然产生。我认为这是解决幻觉问题的唯一根本方法。也许可以用一个松散的类比来解释这个过程,我们有一句老话,授人以鱼不如授人以渔。
郑炯元(Hyung Won Chung)
你可以把第一种情况看作是硬编码。第二种方法是直接教授一种技能。那么,什么是基于激励的方法呢?这种方法是让人先尝到鱼的美味并感到饥饿,然后他会主动去学习许多技能,包括钓鱼。在这个过程中,内在的激励促使他学会了耐心、了解天气和选择鱼饵等技能。而在这些技能中,耐心是一种非常通用的能力。
郑炯元(Hyung Won Chung)
这就是我对这个旧事物进行的一个粗略类比。当我们在看这个问题时,你可能会觉得这非常低效,为什么要这样做?在实现目标和花费大量时间之间存在取舍。更广泛地说,我们在考虑的是这种情况下的取舍。当存在取舍时,我们关注的是一种稀缺资源,在这种情况下,就是完成这项工作所需的时间。如果我们在 x 轴上绘制每种方法所需的时间,教他学习钓鱼技能本身需要更多的时间。但这种限制是针对人类的。对于机器来说,我们谈论的稀缺资源不仅是时间,越来越多的是计算资源,这有着深远的意义。
其中之一是我经常听到的观点:我们有一个小型的专业模型,可能在某些方面比通用的大模型更好。当我听到这个时,隐含的假设是小型专业模型可以在特定领域中胜过通用模型,因为在成为专家和通才之间存在某种取舍。我认为这是我们作为人类所产生的偏见。为什么?因为再次提到取舍,我们要考虑的稀缺资源是时间。大多数人的时间预算基本相同,你可能多睡或少睡一个小时,但大致是每天 16 到 17 小时。这是人类所拥有的时间。因此,花在成为通才上的时间就是花在成为专家上的时间,反之亦然。
郑炯元(Hyung Won Chung)
这就是权衡的体现。但对于机器来说,情况完全不同。一个模型可以获得比其他模型更多的计算资源。如果你看过《龙珠》,就像精神与时光屋一样,你在里面训练一年,外面只过了一天。所以在这种情况下,拥有这种资源的人比其他人多了 365 倍的时间。而当我们谈论机器时,这个倍数远不止 365,而是要高得多。
郑炯元(Hyung Won Chung)
我认为情况就是这样。因此,我认为这种权衡根本不存在。 实际上,通才在某些特定领域可能表现得更好。你可能认为这种激励结构是一个非常古老的概念。实际上,整个人类文明可能都是由激励驱动的,甚至进化也可以被视为一种生存激励结构。那么,为什么我要谈论这个古老的概念?为什么它现在相关?这是我需要解释的。再多的香蕉也无法激励猴子进行数学推理。所以即使奖励是无限的,激励结构是完美的,也不会奏效。这是不可能的。这意味着,对于给定的问题,需要达到某种智力阈值。 而目前,像 GBD4 这样的技术已经在许多任务上跨越了这个阈值。
郑炯元(Hyung Won Chung)
因此,我认为现在考虑基于奖励结构来训练我们关心的模型是非常有意义的。这引出了一个概念,即这种奖励结构取决于模型的大小或规模。模型的大小决定了哪些能力会显现,这是一个有趣的因素。如果模型太小,它可能无法发展出这些通用技能,而只是依赖简单的启发式方法,并在训练过程中承受较高的损失。 这就是奖励结构部分的总结。
重新学习与重新评估
郑炯元(Hyung Won Chung)
我一直在谈论这种沉浸能力,但有些散漫。现在我想详细探讨这个问题。特别是,当我们扩大规模时,会出现一些新的能力。这需要我们用正确的视角来理解。在这个领域,我们有一些讨论,比如某些能力的出现是错觉,或者这些能力根本不会出现等等。我认为细节并不重要。让我给你一个思考方式。
我做了一个最小的 Transformer 模型,模型的维度是 1,层数是 2,然后选择一个 GPT-4 可以处理的任务,比如数学问题,用这个模型来解决它。结果它无法成功解决,而 GPT-4 可以成功解决。所以这里有一个拐点。对于任何问题,你都可以找到一个最小的模型,它无法解决问题,而当前的模型可以解决问题。对我来说,这就是能力的涌现。我认为这很容易证明它确实发生了。如果没有,那么问题对我来说就不够有趣。
X 轴表示某种规模,在某个点之前它不起作用。然后在某个点上,随着规模的增加,这种能力出现了。这并不适用于所有事情,但对于许多有趣的事情,比如推理,这是我们反复看到的现象。我们需要考虑的第一个视角是“尚未”。因为现在不起作用的东西并不意味着以后也不起作用。所以我们应该做的不是说这个想法不起作用,而是说这个想法“尚未”起作用。这对人类来说是一种不自然的思维方式。
我认为这是因为我们在这个环境中运作的偏见非常大。我们在一个基本公理不经常改变的环境中运作,这有点像物理学。所以如果你现在进行热力学实验并得到结果,三年后再做一次,结果可能还是一样的。即使是 300 年后,结果可能也一样。我们已经习惯了这种环境。
郑炯元(Hyung Won Chung)
既然我们的操作基本原理是物理学,那么对于语言模型来说,等效的基本原则是什么呢?这类似于最强大的模型。
郑炯元(Hyung Won Chung)
2020 年,GPT-3 发布,为研究人员提供了一种利用该技术的新范式。2023 年,GPT-4 发布,带来了许多变化,许多基于旧模型的内容变得不再相关。几乎每隔几年,我们就进入一个新的领域,原有的理解也随之改变。这需要一个持续的“重新学习”过程。基于那些错误范式的直觉和想法现在必须被“重新评估”。
郑炯元(Hyung Won Chung)
不过我认为这种情况并不常见。因此,这对新手来说是一个有趣的现象。在这个领域,我经常看到本科生虽然没有太多研究经验,但在一年内就能写出改变整个领域方向的论文。如果你考虑理论数学或物理学,这几乎是不可能的,除非你回到像高斯时代那样的时期。
郑炯元(Hyung Won Chung)
这是一个非常有趣的动态。如果你的知识不多,可能会觉得自己没有太多旧观念需要摒弃,因此更加灵活。至少我是这么认为的。很多在 OpenAI 工作的人并不是传统机器学习的博士,他们更倾向于在看到证据变化时,适应新的范式。所以我认为这是一个非常重要的动态,我想强调一下。
再说一次,我的思考方式,最后一个图示,然后我们可以总结一下,就是关于新兴能力。如果我们在 x 轴上考虑某种尺度,在 y 轴上是能力。我放了两个不同大小的模型,3 和 4。没关系,我们先看能力 1。在能力 1 上,GPT-3 和 GPT-4 都在这个拐点之前。所以这不可能,但稍微比 GPT-4 更好的模型可能会显示出一些生命迹象。能力 2 则需要更长的时间。能力 3,即使是 GPT-3 也能做到。例如,这可能是情感分析之类的事情。
所以我的意思是,每当我们看到这种能力时,因为我们没有任何关于新兴能力的理论,所以无法知道我正在研究的是哪种能力,但至少有这种视觉图示可以让我准备好。因此,作为一个实用主义者,我不想研究能力 2。我想研究能力 1,并为下一个模型做好准备,思考为什么这不起作用。 我可以在哪里投入更多的计算资源以获得生命迹象,或者更少。因此,这种渐进的事情没有错,但如果我在研究小模型已经能做到的事情,我需要知道改进的空间是有限的。
郑炯元(Hyung Won Chung)
让我总结一下这次谈话的要点。我们讨论的核心驱动因素是计算成本的指数级下降。AI 研究人员的任务是认识到这一点,不与之竞争,而是通过设计更具可扩展性的方法来加以利用。
郑炯元(Hyung Won Chung)
当前一代的语言模型依赖于预测下一个词元,这可以被视为一种较弱的激励机制,需要学习通用技能以应对数万亿种任务。更广泛地说,我们应该重新思考下一个词元的预测。虽然预测已经非常出色,但这并不是唯一重要的事情。我们确实应该关注模型的激励机制,这是我们需要真正重视的新型学习范式。语言模型的一个独特之处在于其会展现出新兴能力。因此,我们需要有正确的视角,例如摒弃基于过时公理的观点。就这些,谢谢。