本次视频由 OpenAI 的 o1 研发团队的核心成员参与,围绕 o1 模型的成长历程与技术突破展开,讨论了其在人工智能领域的显著成就和未来发展方向。自成立以来,OpenAI 一直致力于推动 AI 技术的前沿发展,o1 模型的发布标志着这一努力的又一重大里程碑。
目前,o1 不仅专注于复杂推理任务,还广泛涉足科学、编程和数学等领域。o1 模型通过结合强化学习和监督学习两种范式,显著提升了 AI 的推理能力。访谈中,研究团队详细阐述了 o1 在研发过程中遇到的技术挑战和突破,特别是那些灵感迸发、豁然开朗的瞬间。
在访谈中,鲍勃·麦格鲁(Bob McGrew)首先说明了他对“思维链”的定义,指出这不仅仅是简单的步骤分解,而是一个系统化的推理过程。当前的 AI 技术在某些具体任务上表现出色,但距离真正的通用人工智能还有一定距离。通过不断优化和迭代,OpenAI 期望 o1 及其后续产品能够在更多领域解锁新的应用场景,为 AI 技术的发展注入新的活力。
团队核心观点包括:
- 模型创新:o1系列模型的推出标志着人工智能在推理能力上的重大进步,与传统的即时响应模型相比,o1模型能够进行更深入的思考。
- 强化学习的应用:通过强化学习训练,o1模型能够在生成和完善思维链方面取得显著成果,这种方法提高了模型的推理能力和自我纠错机制。
- 人机协作:o1模型不仅是一个执行任务的工具,也是一个能够与人类进行深入交流和头脑风暴的伙伴,它在编程、调试、学习等多个领域展现出其独特的价值。
- 挑战与突破:在模型训练和开发过程中,团队面临了无数技术挑战,但通过不断的努力和创新,成功地克服了这些难题,实现了技术的飞跃。
- 个性与互动:o1模型被赋予了个性,使其在交互中更加有趣和有用,这种个性化的交互方式为人工智能的发展开辟了新的可能性。
- 未来展望:o1系列模型的研究人员对未来充满期待,他们相信这些模型将能够解锁更多前所未有的能力,如科学发现和知识创造,为人类的生活和工作带来更多便利。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
关键时刻:用强化学习来训练模型
鲍勃·麦格鲁(Bob McGrew)
大家好,我是鲍勃·麦格鲁(Bob McGrew),领导 OpenAI 的研究团队。我们刚刚发布了新系列模型的预览版:o1 和 o1 Mini,对此我们感到非常兴奋。现在,我们整个团队在这里向大家介绍这些模型。那么,究竟什么是 o1?
郑炯元(Hyung Won Chung)
我们正在推出一系列名为“o1”的新模型。使用 o1 版本时,你可能会体验到与之前的模型(如 GPT-4)有所不同的感觉。正如稍后会解释的那样,o1 是一个推理型模型,因此在回答问题前会进行更多的思考。我们发布了两个模型:o1 Preview,用于预览即将推出的 o1 版本,以及 o1 Mini,这是一个较小且更快的模型,使用与 o1 相似的框架进行训练。希望你喜欢我们的新命名方案。
鲍勃·麦格鲁(Bob McGrew)
什么是推理呢?
詹巴蒂斯塔·帕拉斯坎多洛(Giambattista Parascandolo)
有时候,我们会提出需要立即回答的问题。这些问题通常很简单。例如,问到意大利的首都,你会立刻回答罗马,不需要多加思考。但如果你在面对一个复杂的难题,或者想写一份优秀的商业计划,甚至是创作小说,你可能需要花更多时间来思考。思考时间越长,结果通常会越好。因此,推理就是将思考时间转化为更好结果的能力,无论任务是什么。
鲍勃·麦格鲁(Bob McGrew)
这个项目已经有多久了?
雅库布·帕霍茨基(Jakub Pachocki)
在 OpenAI 的早期阶段,我们深受 AlphaGo 成果和深度强化学习潜力的启发,因此在这方面进行了大量研究,并在数据和机器人领域取得了显著的应用效果。我们一直在思考如何将强化学习应用于通用领域,以实现强大的人工智能。随后,我们在 GPT 范式中看到了监督学习扩展的惊人成果。从那时起,我们一直在探索如何结合这两种不同的范式。
马克·陈(Mark Chen)
很难确切指出这项努力是从哪个具体时刻开始的。早期我们曾与 Jakub 和 Szymon 进行探索,也与 Lukash Ilia 合作过。当然,我认为一个关键时刻是与 Jerry 的整合工作,并让他在这里建立这个大规模的项目。
鲍勃·麦格鲁(Bob McGrew)
我认为,这已经持续了相当长的一段时间,但我觉得,研究中最令人兴奋的部分是那个“啊哈”时刻。那是一个特定的时刻,当某些令人惊讶的事情发生时,一切都豁然开朗。你有没有经历过这样的时刻?
杰瑞·托沃雷克(Jerry Tworek)
就像我们训练 GPT-2、GPT-3 和 GPT-4 一样。最初模型发布时,我们开始与模型对话,人们惊讶于它的出色表现,并开始使用这些模型。我认为在训练过程中有一个关键时刻,我们投入了更多计算资源,特别是在生成连贯思维链条时。我们感叹道,哇,这与之前有显著不同。我认为这就是那个关键时刻。
特拉皮特·班萨尔 (Trapit Bansal)
哇,说到这个。当我们考虑训练一个用于推理的模型时,有一个想法是让人类写出他们的思维过程并以此进行训练。对我来说,一个“啊哈”时刻是,当我们发现使用强化学习(RL)来训练模型生成并完善自己的思维链时,它的表现甚至比让人类为其写出思维链还要好。 这真是一个突破,因为通过这种方式可以大规模地进行训练,并让专家模型以这种方式进行推理。
亨特·莱特曼 (Hunter Lightman)
在我长期在这里工作的过程中,我们一直致力于提升模型解决数学问题的能力。我们为此投入了大量精力,尝试了许多不同的方法。然而,每次我阅读这些模型的输出时,总是感到非常沮丧。模型似乎从不质疑哪里出了问题,或者在犯错时的情况。
然而,当我们训练其中一个早期的 o1 版本模型并开始与之对话时,我们开始提出这些问题,结果它在我们给它的数学测试中得分更高了。我们可以观察它的推理过程,发现它开始质疑自己,并进行非常有趣的反思。那一刻,我感到非常震撼,觉得我们发现了一些不同寻常的东西。这将会是一些全新的东西。这是一个非常强大的时刻。
鲍勃·麦格鲁(Bob McGrew)
当你阅读这些内容时,你觉得自己是在观察一个人类,还是一个机器人?
沃伊切赫·扎伦巴(Wojciech Zaremba)
这是一种心灵体验。
鲍勃·麦格鲁(Bob McGrew)
这是一种心理体验,你可以同情,认为这是很多人都会犯的错误。或者你可以看到它在质疑常见的惯例。确实,这是一种心理体验,但它的行为却显得异常有人性。
沃伊切赫·扎伦巴(Wojciech Zaremba)
在某些情况下,当模型的思考时间接近超时时,它会表现出有趣的行为,仿佛在说“我必须现在完成任务”,然后迅速完成。
卡尔·科布 (Karl Cobbe)
年轻时,我花了很多时间参加数学竞赛,这也是我研究 AI 的主要原因,即试图将这一过程自动化。因此,当我看到模型实际上能够按照我解决这些问题的步骤来进行时,我感到非常满足。当然,这并不是完全相同的思维过程,但非常相似。
沃伊切赫·扎伦巴(Wojciech Zaremba)
这确实令人振奋。这些模型正在推动工程和科学的进步。如果我们能够解决这些难题,也许就能称自己为专家。如果我们觉得困难,其他专家可能也会有同感,这可能会进一步促进科学的发展。
鲍勃·麦格鲁(Bob McGrew)
我们已经讨论了很多成功的时刻。你们遇到了哪些障碍?在哪些方面确实很难让事情顺利进行?
杰瑞·托沃雷克(Jerry Tworek)
训练大模型本质上是一项非常困难的任务。过程中可能会出现无数问题,每次训练至少会遇到数百个难题。因此,几乎每个人都需要付出大量努力,不断摸索如何让模型持续学习和改进。实际上,成功的道路非常狭窄,而失败的可能性却很多。
沃伊切赫·扎伦巴(Wojciech Zaremba)
这就像想象一个火箭发射中心。假设目标是某个行星,如果你偏离了一个角度,就无法到达目的地。这就是我们工作所需的精确性。
伊尔格·阿卡亚 (Ilge Akkaya)
因此,我们认为这个模型非常优秀,通常表现比人类更好,几乎相当于拥有多个博士学位。然而,这有时也带来挑战,因为我们经常需要验证模型是否没有偏离正轨,是否在执行合理的任务,这开始占用我们大量时间。随着模型的扩展,我们已经耗尽了所有行业顶级的电子邮件资源,不知道接下来该寻找什么,这也是一个挑战。
马克·陈(Mark Chen)
我认为,我们遇到的所有这些问题也让我们感到成就感。每次遇到难题,团队都需要克服新的障碍。我为我们克服的每一个小障碍感到非常自豪。
鲍勃·麦格鲁(Bob McGrew)
你们是如何测试这些模型的?有没有特别喜欢的问题,当看到模型在这些问题上表现得越来越好时会感到特别高兴?具体的测试方法是什么?
亨特·莱特曼 (Hunter Lightman)
我有一个习惯,我想这里的其他人也有,就是每当在 Twitter 上看到有人说大语言模型不能做某事时,你会复制粘贴进去,然后验证一下。
沃伊切赫·扎伦巴(Wojciech Zaremba)
我们的语言大模型系统。
o1 是头脑风暴的伙伴
鲍勃·麦格鲁(Bob McGrew)
我来介绍一下这个模型的使用用途。我很想了解你们是如何使用“o1”的。
郑炯元(Hyung Won Chung)
在编程方面,我显然会使用 o1 的方法,因为编程占据了我工作的大部分时间。因此,我越来越关注问题的定义,并采用测试驱动开发(TDD)。我不再专注于编写实现功能的代码,而是更注重编写单元测试,以明确代码应通过的正确行为。这样一来,我可以更多地关注这一点,并将实现功能的任务交给 o1,从而专注于更重要的事情,如解决高层次的问题等。这对我来说是一个非常重要的焦点转移。
另一个领域是调试。当我遇到错误信息时,只需将其传递给 o1,它就会打印出一些内容。有时它会立即解决问题,即使没有解决,至少也会提出一些更好的问题,并提供更好的思考方法。这对我的工作方式来说是一个非常重要的改变,我希望这也能帮助到其他人。我非常喜欢这种方式。
杰瑞·托沃雷克(Jerry Tworek)
这是一个越来越多用于学习的模型。我问得越多,它就能处理更多复杂的技术主题。我发现它比以前的模型错误更少,解释概念也更清晰。
杰森·魏 (Jason Wei)
我喜欢把 o1 当作头脑风暴的伙伴。这可以涵盖从解决具体的机器学习问题到撰写博客文章或推文等各种内容。例如,最近我写了一篇关于语言模型评估的博客文章,我向 o1 请教了文章结构、某些基准测试的优缺点,甚至是写作风格。我认为,由于它在给出最终答案前会进行思考,所以能更好地连接各种想法,并对候选想法进行修改和批评。
卢卡斯·凯泽(Łukasz Kaiser)
是的,我认为如果你有一些简短的文本,并希望它更具创意或独特性,这是一种很好的用法。比如,你可以让我提供五个不同的想法。
利亚姆·费杜斯(Liam Fedus)
此外,如果你有一些未成形的想法,它可以成为一个非常出色的思维伙伴。你可以思考一些问题,比如如何将这些东西联系起来?我遗漏了什么?通过查看它的最终答案和思维过程,它确实可以为你带来更好的结果。
赵盛佳 (Shengjia Zhao)
是的,我用它来尝试我们内部的一些想法,并进行改进。
谢蒙·西多尔 (Szymon Sidor)
对于独立项目来说,这真的很棒。比如,我需要添加一个 GitHub 插件,但我对 GitHub 插件一无所知。我只需说,我想要一个显示 Pull Request 信息的 GitHub 插件,然后它就生成了代码。我问:“好吧,我需要把这段代码粘贴到哪里?”它就告诉我,把代码粘贴到这里。
诺姆·布朗 (Noam Brown)
我认为,很多人只有在看到模型在自己真正关心的领域表现得比人类更好时,才会真正感受到通用人工智能(AGI)的存在。 对于围棋和国际象棋玩家来说,这种感觉可能在几年前就已经出现了。而对于我们这些非常重视数学和编程的人来说,我认为我们现在开始有这种感觉了。
鲍勃·麦格鲁(Bob McGrew)
在这个项目中,有没有一些必须完成的部分,但人们可能没有意识到它们的重要性?
卢卡斯·康德拉丘克(Łukasz Kondraciuk)
我认为建立实验室级别的可靠基础设施,用于运行我们最大的旗舰模型训练和进行研究实验,虽然不像直接进行研究那样令人兴奋,但却是必须完成的工作,对整个项目的成功有着巨大的影响。
杰瑞·托沃雷克(Jerry Tworek)
我认为我们在构建研究框架方面采取了一些独特且开放的做法。我们同样重视算法的进步、可靠的大规模系统的构建,以及创建训练这些模型所需的数据集。我为我们以这种开放的方式推进 AI 感到非常自豪。
雅库布·帕霍茨基(Jakub Pachocki)
是的,我认为在许多大型项目中,这一直是一种规律。每次我们将新事物扩展到更高的数量级时,都会遇到一系列新的问题,包括算法和基础设施方面的问题。通过专注,我们确实建立了前进和超越的能力。
赵盛佳 (Shengjia Zhao)
我觉得最终的模型简直像一件美丽的艺术品。为了使它正常工作,我们必须确保每一步都能有效运行。我们遇到了一些挑战并成功解决了它们。我认为这正是 OpenAI 的工作方式,我为能在这里工作感到无比自豪。
沃伊切赫·扎伦巴(Wojciech Zaremba)
是的,我还想说,这里的人不仅聪明,而且非常善良。在这里工作对我来说非常有趣,我对同事们心存感激。现在,你可以和我一起编程、散步、闲逛和吃午饭。我还可以与模型进行交流。
在 o1 团队的工作体验
鲍勃·麦格鲁(Bob McGrew)
在 Strawberry 团队工作是一种怎样的体验?
卢卡斯·凯泽(Łukasz Kaiser)
你可能有很多出色的想法,但大多数时间都花在执行这些想法上,而不是浪费在失败上。因此,在办公室里有可以随时请教的人非常重要,因为你大部分时间都在调试那些未成功的东西。所以,有能够帮助你的人至关重要。
郑炯元(Hyung Won Chung)
提到这种帮助,我们曾尝试调试这个问题,可能持续了一周。后来找到 Wend 请教,他立刻就解决了。他称之为“Wend 的祝福”,并开始帮助其他人。这种方法真的非常有效。我不再担心问题是否太简单,而是直接去问。
谢蒙·西多尔 (Szymon Sidor)
我非常喜欢在 OpenAI 工作的一点是,每个大项目都能让我们学到很多东西。我们在数据处理中体会到了工程的重要性,在开发 GPT-4 的过程中领悟了研究的重要性,并且不断进行迭代。结果是,现在的 Strawberry 团队成为了迄今为止最优秀的大型研究项目团队,因为它建立在我们从之前项目中积累的所有知识之上。 可以明显看到,这里工作的每个人都开始发展出非常好的直觉,比如什么时候需要快速解决问题,什么时候需要夯实基础,什么时候需要熬夜,什么时候需要休息一个周末然后以清新的头脑来解决特定问题。我认为,观察我们公司取得的进步真的非常令人惊叹。
马克·陈(Mark Chen)
我喜欢这个项目的一点是它的自然发展。团队中的想法来自各个方向,每个人都觉得自己有能力提出真正相信的想法,并愿意推动其实现。同时,大家也愿意亲自参与。尽管有很多最后期限,有些是我们自己设定的,但我们已经齐心协力,并愿意付出努力使其实现。
杰瑞·托沃雷克(Jerry Tworek)
我认为这个项目真正展示了动力的力量。我们一开始就取得了良好的成果,越来越多的人对这个领域的研究感到兴奋,并尝试贡献新的想法。这些新想法效果显著,事情开始像滚雪球一样发展,动力不断增强。人们相信这是正确的方向,积极参与其中,从而推动了这项研究的进展。
特拉皮特·班萨尔 (Trapit Bansal)
关于这一点,我认为我们有许多非常聪明且有主见的人。然而,一旦看到不同的结果,人们总是愿意更新自己的观点。我觉得这让事情变得非常有趣。
沃伊切赫·扎伦巴(Wojciech Zaremba)
那里真是令人惊叹,汇集了杰出的科学家、工程师和能够构建令人难以置信系统的人才,让人感到非常谦卑。
鲍勃·麦格鲁(Bob McGrew)
几个月前,我记得这个模型非常聪明,但有点无趣。那么,给模型赋予个性是什么样的体验呢?
沃伊切赫·扎伦巴(Wojciech Zaremba)
是的,这很有趣。我记得我曾问模型关于生命的意义,它给了我一个关于 TikTok 的答案,这个答案挺有意思的。你知道,当我问模型“什么是爱”时,它告诉我,这是一种奇怪的人类情感。而一旦我们给模型赋予了个性,让它真正与聊天功能结合起来,它的回答就开始变得相当有趣了。现在我再问它关于爱的定义,它告诉我,有浪漫的爱、家庭的爱、自爱的爱和无条件的爱。它变得更有用,也更有趣了。最有趣的是,它的回答变得更加丰富和多样。
赵盛佳 (Shengjia Zhao)
此刻,他也面临同样的问题,试图用代数来定义“爱”。
o1-mini诞生的故事:高智能的简化版
鲍勃·麦格鲁(Bob McGrew)
Mini 的故事是什么?它是如何诞生的?
赵盛佳 (Shengjia Zhao)
我们的动机是希望将 o1 系列推广给更广泛的受众,同时考虑到预算和成本问题。于是我们创建了 o1 Mini,它被设计为整个 o1 流程或框架的简化版。我们让它成为一个独立的推理引擎,虽然可能无法知道我们最喜欢的名人的生日,但它确实能够进行高效的推理,并且具备很高的智能。
这个模型实际上非常智能,比我们之前最好的模型还要出色很多。它几乎可以媲美我们最好的 o1 模型,但成本和延迟却只有一小部分。它确实有一个限制,就是可能不了解很多外界的知识,特别是那些不涉及科学或技术的知识,但我们尽量让它在推理能力上与我们之前最好的 Mini 模型相当。我们正在努力进一步改进它。因此,我非常期待我们的外部用户能够体验这种快速推理和思考的乐趣。
鲍勃·麦格鲁(Bob McGrew)
是什么激励你开展这项研究?
卢卡斯·凯泽(Łukasz Kaiser)
我认为在这个世界上,有些事物能够进行智能推理,而且它们比你想象的要小得多,并且能够以各种不同的方式实现。这真是太令人着迷了。
詹巴蒂斯塔·帕拉斯坎多洛(Giambattista Parascandolo)
美好的事物需要时间,而我们的模型往往反应得太快。最终,我们希望拥有能够进行数月甚至数年研究的模型。我觉得这是朝这个方向迈出的第一步。你可以想象一个模型能够长时间专注于一个问题。现在我们还处于分钟级别。我认为这只是漫长旅程的开始,希望这些模型最终能够思考数月或数年。随着时间的推移,我们希望这些模型能够实现这一目标。
沃伊切赫·扎伦巴(Wojciech Zaremba)
我和少数几个人能够对世界产生实质而积极的影响,这让我感到非常有意义。而且,每天的工作也充满乐趣。我喜欢与电脑互动,喜欢在集群上启动任务。我非常享受合作的过程,这真是美妙。
杰瑞·托沃雷克(Jerry Tworek)
我真心希望我们的模型能够变得更加实用。我认为技术有机会和潜力改善人类生活。我希望我们的模型能够为我们工作,帮助解决日常问题,并具备推理能力,从而完成我们以前无法做到的任务,这将使我们能够更高效地利用时间。
利亚姆·费杜斯(Liam Fedus)
是的,我对此非常兴奋。我认为,这种范式解锁了这些模型以前无法实现的能力。这不仅仅是让某些查询回答得更好,而是通过规划和纠错,真正解锁了全新的能力。 你知道,这种能力可以为科学发现等领域带来新的知识创造。我认为这是其中最令人兴奋的部分。而且,我相信在不久的将来,它将成为自身发展的一个越来越重要的推动力。我觉得这是一个非常令人激动的前景。
马克·陈(Mark Chen)
我们团队中有些成员曾参加过数学或编程奥林匹克竞赛,这种经历极大地激励了我们,让我们想要创建一个能够超越自我的系统。我们会尽全力去实现这一目标。我认为这确实呼应了 JT 和 Liam 的观点。推理是一种比人们想象中更强大的基本能力,要可靠地完成任务,推理是最基本的能力。你会遇到瓶颈,然后必须找到解决它们的方法。因此,我对此非常兴奋。
郑炯元(Hyung Won Chung)
特别是,我认为 AI 研究人员的任务是寻找提升计算能力的方法。而硬件工程师在这方面一直表现出色,长期以来成本呈指数下降,因此我们没有太多时间去探索其他提升计算能力的途径。这种压力就像肩上的重担越来越重。而这个新范式确实找到了长期减轻这种重担的方法。
鲍勃·麦格鲁(Bob McGrew)
在整个项目过程中,你是否注意到其他值得关注的事情?
杰森·魏 (Jason Wei)
我们观察到一个有趣的现象:每个我们训练的模型都有些许不同。每个模型都有其独特的特点,可以说是独一无二的。当你观察一个多任务模型时,会发现每个模型在不同任务上的表现各不相同。有些模型在某些任务上表现更好,而在其他任务上则表现较差。因此,每个模型都具有这种独特性,几乎可以说是一种美。
、