近期,人工智能领域的杰出人物——Andrej Karpathy 参与了播客节目《No Priors》的采访。他曾担任特斯拉的 AI 高级总监和 OpenAI 的研究员。Karpathy 以其在深度学习和计算机视觉方面的卓越贡献而闻名,他的职业生涯涵盖了从学术研究到实际应用的广泛领域。
本次访谈围绕着 Karpathy 的职业经历和他对人工智能未来发展的见解展开,深入探讨了他在特斯拉领导 Autopilot 项目的经验,以及他在 OpenAI 参与构建通用人工智能(AGI)的工作。Karpathy 分享了他对当前 AI 技术水平的看法,特别是大型语言模型(LLMs)的潜力和局限性。
此外,Karpathy 还介绍了他最新的创业项目 Eureka Labs,这是一家致力于将 AI 技术应用于教育领域的公司。通过 Eureka Labs,Karpathy 希望打造一个“AI 原生”的教育平台,利用生成式人工智能为学生提供个性化的学习体验。
在访谈中,Karpathy 详细阐述了他对“Jagged Intelligence”这一新术语的定义,解释了现代 AI 系统在处理复杂任务和简单任务时表现出的不一致性。他还讨论了 AI 在自动驾驶技术中的应用,特别是从基于规则的程序转向端到端深度学习的转变。
通过这次访谈,我们不仅了解了 Karpathy 的职业成就和技术见解,还看到了他对未来 AI 发展的深刻思考和愿景。
Andrej Karpathy 的核心观点包括:
- 自动驾驶技术的进展与挑战:安德烈·卡帕奇认为,尽管自动驾驶汽车如 Waymo 已在特定城市实现商业化运营,但技术的全球普及仍需时间。他认为特斯拉在自动驾驶技术上领先于 Waymo,主要是因为特斯拉面临的是软件问题,而 Waymo 则是硬件问题,软件问题相对容易解决。
- 人工智能的类比与未来:卡帕奇将自动驾驶领域的进展与通用人工智能(AGI)的发展进行了类比,指出尽管在特定领域取得了显著进展,但技术的全球普及和应用仍面临诸多挑战。
- 人工智能教育的潜力:卡帕奇强调了人工智能在教育领域的应用潜力,他认为 AI 可以成为完美的导师,帮助人们释放学习潜能,并通过个性化教育提升个人能力。
- 人工智能与人类工作的融合:他预见了一个未来,人类将与AI系统更紧密地协作,AI 将成为人类智能的延伸,帮助人们在工作和生活中更高效地完成任务。
- 人工智能技术的普及与开源的重要性:卡帕奇认为,尽管大型实验室和公司在 AI 领域占据主导地位,但开源项目和教育资源的持续推进对于确保技术的普及和民主化至关重要。
- 人工智能的伦理与社会影响:在讨论 AI 的未来发展时,卡帕奇提到了技术对社会结构、工作和人类认知能力的潜在影响,强调了在发展 AI 的同时考虑其伦理和社会影响的重要性。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
自动驾驶汽车:特斯拉与 Waymo
莎拉·郭(Sarah Guo)
你曾在特斯拉负责自动驾驶项目。如今,我们已经拥有完全自动驾驶的汽车。你如何评价当前的技术水平?我们应该期待技术提升和普及的速度有多快?
安德烈·卡帕奇(Andrej Karpathy)
我在自动驾驶领域已经工作了大约五年,我认为这是一个非常有趣的领域。目前,这个领域正在发生许多变化,我认为可以从中得出很多与通用人工智能(AGI)的类比。也许是因为我对自动驾驶比较熟悉,我感觉我们在这个领域已经具备了一些 AGI 的特征。现在,有一些系统可以让付费客户使用,并带着他们四处行驶。
在旧金山,Waymo 非常常见。你可能已经乘坐过 Waymo,而我也多次体验过。它非常了不起,可以带你到处走,而且你是作为客户在为它付费。有趣的是,我第一次乘坐 Waymo 实际上是在十年前,大约在 2014 年。当时我的一个朋友在那工作,他给我做了一个演示,带我绕了一圈。十年前,它的驾驶表现几乎是完美的。从那次演示到现在,Waymo 已经发展成可以在城市规模上付费使用的产品,花了十年的时间,并且它还在不断扩展。
伊拉德·吉尔(Elad Gil)
你认为这主要是监管问题还是技术问题?你觉得技术何时会准备好?
安德烈·卡帕奇(Andrej Karpathy)
在一次 30 分钟的单次演示中,你无法看到全部内容。这些技术需要解决的问题已经存在十年之久。因此,演示和产品之间存在巨大的差距。我认为这其中很大一部分也涉及到监管等问题。不过,我确实认为在某种程度上,我们在自动驾驶领域已经有点像实现了 AGI(通用人工智能)。然而,真正令人着迷的是,这项技术在全球范围内的普及还没有实现。你可以在旧金山进行一次演示,但这并不意味着全球范围内的改变,这需要很长时间。所以从演示到实际的全球化之间有很大的差距。我认为这与 AGI 有关,因为 AGI 的情况也类似。
回到自动驾驶领域,很多人认为 Waymo 领先于 Tesla,但我个人认为 Tesla 领先于 Waymo。尽管表面上看起来并非如此,但我对 Tesla 及其自动驾驶项目非常看好。我认为 Tesla 面临的是软件问题,而 Waymo 面临的是硬件问题。我认为软件问题要容易解决得多。 Tesla 已经在全球范围内部署了大量汽车,而 Waymo 需要达到这个规模。所以一旦 Tesla 能够实际部署并且其技术真正有效,我认为这将是非常了不起的。我昨天刚刚试驾了最新的 FSD 软件版本,它现在可以带我到处跑了,我认为他们最近确实做出了很大的改进。
伊拉德·吉尔(Elad Gil)
最近我经常使用它,效果确实不错。
安德烈·卡帕奇(Andrej Karpathy)
表现相当出色。昨天它的驾驶表现非常优秀,因此我对团队的表现印象深刻。我认为特斯拉主要面临的是软件问题,而 Waymo 则主要面临硬件问题。目前来看,特斯拉和 Waymo 似乎在竞争中领先。但我相信,当我们在 10 年后回顾,看看谁真正实现了规模化,谁的收入来源最多,我仍然认为特斯拉会在这方面领先。
伊拉德·吉尔(Elad Gil)
你认为我们距离解决软件问题的关键点还有多远,才能实现某种程度的等效性?显然,正如你所说,Waymo 的汽车配备了许多昂贵的激光雷达和其他类型的传感器,以实现其功能。这些传感器在很大程度上支持了软件系统。而 Tesla 的方法是只使用摄像头,这样实际上消除了巨大的成本和复杂性,并且可以在许多不同类型的汽车上实现这种功能。你认为这种转变何时会发生?
安德烈·卡帕奇(Andrej Karpathy)
在未来几年里,我希望能看到类似的情况。有趣的是,我不确定人们是否意识到,特斯拉实际上使用了许多高成本的传感器,这些传感器仅在训练时使用。 许多汽车配备了激光雷达,进行不可扩展的操作,并配备了应力传感器等。它们用于地图绘制和其他任务。在训练时使用这些传感器,然后将其提炼成一个在测试时仅依赖视觉的系统。这就像是在传感器和成本上的一种套利策略。因此,我认为这实际上是一种非常聪明的策略。虽然这一点尚未被完全理解,但我相信它会取得成功,因为像素中包含的信息可以被网络处理。是的,这些传感器在训练时非常有用,但在测试时它们的作用并不大。
伊拉德·吉尔(Elad Gil)
另一个重要的变化是从基于许多边缘案例设计的启发式方法,转向端到端的深度学习。您能谈谈这一变化及其相关内容吗?
安德烈·卡帕奇(Andrej Karpathy)
是的,我认为这从一开始就是计划的一部分。在我在 Tesla 工作时,我们讨论了神经网络如何逐步取代传统技术栈。当我加入时,系统中有大量的 C++ 代码。而现在,在汽车运行的测试套件中,C++ 代码已经大幅减少,因为我们不再需要太多后端代码。神经网络逐步渗透系统,最初只是在图像层面进行检测,然后处理多张图像,给出预测,再通过时间序列的多张图像进行预测,逐步替代 C++ 代码,最终只需输出转向指令。因此,我认为 Tesla 正在逐步取代传统技术栈。
据我了解,目前 Waymo 并没有采用这种方法,他们尝试过但最终放弃了。这是我目前的理解,但我不确定,因为他们没有公开讨论这个问题。不过,我确实相信这种方法。如果从这个角度看,我认为这是最后一个需要解决的问题。我怀疑在未来大约 10 年内,Tesla 的端到端系统将完全由神经网络驱动,视频流输入神经网络,输出指令。你需要逐步构建和完善它。
即使是所有的中间预测和我们所做的所有工作,我认为它们并没有阻碍开发,反而是其中的一部分,因为有很多充分的理由。实际上,当你只是模仿人类进行端到端驾驶时,你只有很少的监督信号来训练一个庞大的神经网络,信号太少,无法训练数十亿参数。因此,这些中间表示等帮助你开发所有的特征和检测器,然后使端到端部分的问题变得更容易。所以我怀疑,虽然我不确定,因为我不是团队的一部分,但有大量的预训练进行,以便你可以进行端到端的微调。
所以基本上,我觉得逐步取代传统技术栈是必要的,这也是 Tesla 所做的。 我认为这是正确的方法,而且看起来效果不错。所以我真的很看好这种方法。
用汽车模型训练 Optimus
莎拉·郭(Sarah Guo)
如果你从一开始就参与整个过程,最终会获得数据,这是有道理的。所以在你离开之前,你参与了特斯拉人形机器人项目。我有很多问题,但首先想问的是:有什么可以应用到其他项目上的吗?
安德烈·卡帕奇(Andrej Karpathy)
其实,几乎所有东西都是可以转移的,我认为人们并没有意识到这一点。
莎拉·郭(Sarah Guo)
这个说法有些夸张。我觉得有些类似。
安德烈·卡帕奇(Andrej Karpathy)
当然,基本上,机器人和汽车在仔细观察下其实都是机器人。我认为,这种说法有些误导。它实际上是一家大规模的机器人公司,因为大规模生产本身就是一个完全独立的变量。 他们不是在制造单一的产品,而是在制造生产产品的机器,这完全不同。因此,我认为 Tesla 是一家大规模的机器人公司。
从汽车到人形机器人的转变实际上并不需要太多工作量。例如,早期版本的 Optimus 机器人认为自己是一辆车,因为它拥有完全相同的计算机和摄像头。这真的很有趣,因为我们在机器人上运行汽车的网络,但它却在办公室里走来走去。它试图识别可驾驶空间,但现在这些空间都变成了行走空间。实际上,只是进行了泛化和一些微调。
莎拉·郭(Sarah Guo)
环境可以合理地理解为一个系统,实际上,它就像一个机器人。许多东西可以转移,但你可能会缺少一些信息,比如执行日期和动作日期。
安德烈·卡帕奇(Andrej Karpathy)
确实,你可能漏掉了一些组件。但另一方面,我想说的是,Optimus 项目的启动速度让我印象深刻。因为当 Elon 一说我们要做这个项目时,所有合适的工具和资源就迅速到位了,包括 CAD 模型和供应链。 我当时就觉得,Tesla 在构建机器人方面有这么多内部专业知识。而且这些工具本质上是一样的,只是从汽车和变形金刚电影中重新配置和排列。你需要的组件也是类似的。你需要考虑所有相同类型的因素,无论是在硬件、规模,还是在控制系统方面。所以在头脑风暴时,不仅是具体的网络,还有所有的方法和标注团队,以及人们采取的方法,我认为有大量的知识转移。
伊拉德·吉尔(Elad Gil)
你认为人形机器人或仿人技术最先会应用在哪个领域?
安德烈·卡帕奇(Andrej Karpathy)
我认为很多人对它有这样的期望,比如帮你洗衣服等功能。我相信这些功能在未来会实现。但我不认为 B2C(企业对消费者)是合适的起点,因为我们目前还无法制造出像“照顾老奶奶”那样的机器人。此外,这还涉及太多法律责任。我对此并不赞同。
安德烈·卡帕奇(Andrej Karpathy)
你知道,这些东西还不完美,还需要改进。所以我认为最好的客户是自己,Tesla 可能会这么做。 我对 Tesla 非常看好。如果人们能意识到第一个客户是自己,并且在工厂中进行大量的物料处理等工作,这样就不必与第三方签订合同。这一切都非常繁琐,还涉及律师等。
你可以先在内部进行试验,然后再进入 B2B(企业对企业)市场,去找那些有大型仓库的公司。我们可以处理物料,处理所有这些事情。合同可以起草,围栏可以设置,所有这些事情都可以做。一旦你在多家公司中成功试验,我认为那时你就可以进入 B2C(企业对消费者)应用。我确实认为我们会看到 B2C 机器人,比如 Unity 等公司也开始推出我非常期待的机器人。
安德烈·卡帕奇(Andrej Karpathy)
我可能会购买其中一台设备,并且可能会有一个生态系统,人们可以在这些平台上进行开发。不过,从大规模应用的角度来看,我会期待这种方法。起初会有很多材料需要处理,然后逐步转向具体的 HKC(Haskell Communities and Activities Report)活动。让我非常兴奋的是吹叶机。我希望有一个 Optimus 机器人能在街上行走,捡起每一片落叶,这样我们就不需要吹叶机了。我认为这会奏效,这是一个了不起的任务。我希望这是最早实现的任务之一。
采用仿人外形的原因
莎拉·郭(Sarah Guo)
扫地这件事很有趣。虽然他们确实有一台机器在工作,但那并不是人类,对吧?我们能谈谈类人类的话题吗?最简单的观点是,世界是为人类建造的,所以你构建了一套硬件,正确的做法是构建一个可以在这套硬件中完成越来越多任务的模型。我认为还有另一种观点是,人类在任何特定任务上都不是最优的,对吧?例如,你可以让他们更强壮、更大或更小。那为什么我们不创造超人类呢?对此你怎么看?
安德烈·卡帕奇(Andrej Karpathy)
我认为人们可能低估了任何单一平台所涉及的固定成本的复杂性。 为了一个单一平台,你需要支付巨大的固定成本,因此集中化并拥有一个可以完成所有事情的平台是很有意义的。人类节点的方面也非常吸引人,因为人们可以很容易地操作它。这对于数据收集非常有帮助,因为人们显然能够非常容易地操作它,这一点通常被忽视了。当然,还有你提到的为人类设计的世界等方面,这也很重要。
我认为我们会在类人平台上看到一些变化,但任何平台都有很大的固定成本。最后一个维度是,你可以从不同任务之间的迁移学习中受益匪浅。在 AI 中,你真的需要一个多任务的单一神经网络,能够执行许多任务,从中获取所有的智能和能力。 这也是为什么语言模型如此有趣的原因,因为你有一个单一的文本域,多任务处理所有这些不同的问题,它们之间共享知识,并且都耦合在一个神经网络中。你需要那种平台,希望为摘叶子收集的所有数据能够惠及所有其他任务。如果你为任何一个特定目的构建一个专用的东西,你将无法从所有其他任务之间的迁移中受益。
莎拉·郭(Sarah Guo)
是的,我认为 G1 的价格大约是 3 万美元,对吧?但在特定的 BOM 下,制造一个功能强大的人形机器人似乎很困难。如果你想安装一个可以执行任务的机械臂,可能一开始使用更便宜的轮式平台会更好。这样说有道理吗?
(编辑注:宇树的 G1 机器人售价为 9.9 万元,大约为 1.5 万美金左右。)
安德烈·卡帕奇(Andrej Karpathy)
更具经济性的通用平台。
莎拉·郭(Sarah Guo)
从硬件角度来看。
安德烈·卡帕奇(Andrej Karpathy)
我觉得这有道理。我确实觉得这可能有点像是在局部最小值上徘徊。我认为应该选择一个平台并将其完善,作为长期的相当不错的选择。当然,另一件事是,我觉得这对人们来说会有点熟悉,我认为人们会理解你可能想与它交流。而且我觉得心理方面也可能更倾向于人类平台,除非人们害怕它,实际上更喜欢一个更抽象的平台。
安德烈·卡帕奇(Andrej Karpathy)
当人们观看《黑镜》时,那只机械狗突然变成了一个可怕的威胁,所以很难理性思考。我只是觉得人们很容易理解发生了什么。
机器人技术面临的现有挑战
伊拉德·吉尔(Elad Gil)
你认为要实现这一未来,还需要哪些技术突破?
伊拉德·吉尔(Elad Gil)
机器人?可能是人形机器人,也可能是其他类型的机器人。总之,它们都是人类制造的。
安德烈·卡帕奇(Andrej Karpathy)
嗯,我不确定我是否完全理解这个概念。不过,我确实认为在人类信息因素方面,这非常有趣。比如,对于下半身,我不确定是否应该通过示范来进行模仿学习,因为下半身涉及很多像倒立摆控制之类的内容。而对于上半身,你需要大量的远程操作、数据收集和端到端控制。因此,我认为在这种情况下,一切变得非常复杂。我不知道这些系统何时以及如何交互。
伊拉德·吉尔(Elad Gil)
在与同事交谈时,我发现他们主要关注的是执行、控制以及某种数字操控等方面的内容。没错,我也是。
安德烈·卡帕奇(Andrej Karpathy)
起初,确实需要大量的远程工作来启动项目,并不断重复这些操作,直到在 95%的情况下能够正常运行。接下来,我们会讨论人机协作的比例,逐渐让人类成为机器人监管者,而不是直接执行任务。 这一切都会随着时间逐步实现。我不认为有任何特别的障碍,只是需要大量的基础工作。许多工具已经可用,而 Transformer 作为一个出色的架构,可以处理各种任务。你只需要准备数据,将其以正确的形式输入,进行训练、实验、部署和迭代。这确实需要大量的基础工作,但我不认为有任何单一的技术问题会阻碍我们前进。
莎拉·郭(Sarah Guo)
我们现在的情况如何?
安德烈·卡帕奇(Andrej Karpathy)
大规模数据处理?我们目前处于一个非常好的状态。我认为可能还没有完全被理解,但 Transformer 确实非常惊人。它不仅仅是另一个神经网络,而是一个非常通用的神经网络。例如,当人们谈论神经网络中的缩放规律时,这些规律在很大程度上是 Transformer 的特性。在 Transformer 出现之前,人们使用 LSTM(长短期记忆网络)并将其堆叠,但实际上并没有得到清晰的缩放规律。而且这些方法实际上并不能很好地训练和工作。
Transformer 是第一个真正能够扩展并获得 Scaling Law 的模型,一切都变得合理。 所以我认为它就像一个通用的训练计算机,我把它看作是一种可微计算机。你可以给它输入和输出成千上亿的数据,然后通过反向传播算法进行训练。它实际上会自我调整以完成任务。所以我认为我们在算法领域发现了一个非常神奇的东西。
我认为其中有一些独特的创新。比如残差连接(Residual Connection),这是一个已经存在的部分。还有层归一化(Layer Normalization),需要插入其中。还有注意力机制模块,以及没有那些饱和非线性函数,比如 tanh(双曲正切函数)等,这些在 Transformer 中不存在,因为它们会破坏梯度信号。所以有四五个创新点被组合在一起形成了 Transformer。这就是 Google 在他们的论文中所做的。这种方法实际上可以训练,并且突然间你得到了缩放规律,突然间你有了一个可以大规模训练的模型。所以,我认为这是一个重大的突破。
莎拉·郭(Sarah Guo)
我们似乎还没有接近突破的极限,对吗?因为我认为,关于数据壁垒、下一代技术和规模扩展成本的讨论肯定会继续。你怎么看?
安德烈·卡帕奇(Andrej Karpathy)
我们从这里开始深入探讨。我认为,神经网络架构已经不再是主要瓶颈了。 以前,Transformer 是一个瓶颈,但现在它已经不是了。因此,我们现在更多地讨论损失函数和数据集,这些成了新的瓶颈。我们的通用结构可以根据需要进行调整。
因此,我认为很多研究和应用已经转移到了这些方面,这也是为什么许多公司和使用这种技术的人不再关注 Transformer 架构。比如 Llama 的发布,Transformer 并没有太大变化。我们添加了绳索位置编码,这是主要的变化。其他方面的变化并不大,可能只有 3% 的提升。实际上,绳索位置编码是过去五年中 Transformer 唯一显著的变化。所以在这方面没有太多创新,大家直接进行训练。现在大家主要在数据集和损失函数的细节上进行创新。因此,所有的活动都集中在这些方面。
莎拉·郭(Sarah Guo)
那么,这个领域的争议点是什么呢?获取互联网数据相对容易,但现在我们已经用尽了这些数据。因此,问题实际上涉及到合成数据或更昂贵的数据收集。
安德烈·卡帕奇(Andrej Karpathy)
因此,我认为这是一个很好的观点。这也是为什么现在很多研究都集中在大语言模型(LLM)上。互联网数据并不适合用于 Transformer。它更像是一种最近邻方法,实际上能带你走得很远,令人惊讶。但互联网数据只是一堆网页,对吧?你真正想要的是你大脑中的内心独白。
莎拉·郭(Sarah Guo)
这就是你脑中的思路。
安德烈·卡帕奇(Andrej Karpathy)
当你解决问题时,大脑中的活动是怎样的?如果我们有十亿个像 AGIs 这样的人,大致上我们就能实现这一目标。但实际上,我们并没有这么多。因此,现在很多研究都集中在互联网数据上,因为互联网恰好包含了足够的推理线索和大量的知识,而 Transformer 模型正好能利用这些数据。因此,我认为现在很多研究都在致力于将数据集重构为这些思维过程的格式。我认为大量的合成数据生成对此非常有帮助。 有趣的是,当前的模型在很大程度上帮助我们创建下一代模型。这有点像阶梯一样,一步一步地向前发展。
伊拉德·吉尔(Elad Gil)
你认为合成数据有多重要?它能带我们走多远?正如你所说,每个数据点和每个模型都能帮助更好地训练后续模型,或者至少为其创建工具,比如数据标注等。合成数据可能是其中的一部分。你认为合成数据在其中的作用有多大?
安德烈·卡帕奇(Andrej Karpathy)
是的,我认为这是我们唯一能够取得进展的方法,我们必须让它起作用。在使用合成数据时,需要非常小心,因为这些模型会悄无声息地崩溃,这是一个主要问题。如果你使用 ChatGPT 让它讲个笑话,你会发现它只知道大约三个笑话。大多数时候,它只会给你一个笑话,有时会给你三个。这是因为模型已经崩溃了,而且是悄无声息的崩溃。当你看单个输出时,只看到一个例子,但当你实际查看分布时,会注意到它不是一个非常多样化的分布。它悄无声息地崩溃了。在进行合成数据生成时,这是一个问题,因为你实际上需要的是多样性。你希望你的数据集中有多样性和丰富性。否则,你会得到崩溃的数据集,当你看单个例子时看不出来,但分布已经失去了大量的能量和丰富性,所以它悄无声息地变得更糟。
因此,你必须非常小心,确保在数据集中保持多样性。为此有很多技术。例如,有人发布了一个个性数据集,这个数据集包含了 10 亿个人格特征,比如人类的背景描述。比如,“哦,是的,我是一个老师”或者“我是一个艺术家,我住在这里,我做这个”等等。这些是一些虚构的人类背景的小段落。在进行合成数据生成时,你不仅要完成这个任务,还要想象你在向这个人描述它。你输入这些信息,现在你迫使它探索更大的空间,从而获得一些多样性。所以我认为你必须非常小心地注入多样性,保持分布。这是我认为人们可能没有充分认识到的难点。因此,我认为合成数据在未来绝对是不可或缺的,我们不会缺少数据, 这是我的印象。我只是认为你必须小心。
人类认知与人工智能模型的相似之处
莎拉·郭(Sarah Guo)
你认为这项研究让我们对人类认知有了哪些新的认识?我不确定是否可以说,了解我们的推理模式实际上有助于理解大脑的运作。
安德烈·卡帕奇(Andrej Karpathy)
我会谨慎使用这些类比,但总体来说,我认为这是完全不同的事物。不过,我确实认为有些比喻是可以成立的。举个例子,我认为 Transformer 在很多方面实际上比人脑更优。它们实际上是更高效的系统。之所以不如人脑好用,主要是数据问题,这是一个初步估计。
比如,Transformer 在记忆序列方面比人类好得多。如果你给它一个序列,并在该序列上进行一次前向传播和反向传播,那么当你给它前几个元素时,它会预测并记住剩下的序列。它在这方面非常出色。而如果你给人类一次展示一个序列,人类是很难记住的。因此,我确实认为基于梯度的优化,即我们在训练神经元时经常进行的前向传播和反向传播,在某些方面实际上比大脑更高效。这些模型更优,只是尚未完全成熟。 但在很多认知方面,我认为它们可能会表现出色。
莎拉·郭(Sarah Guo)
当输入正确时,效果会更好。
伊拉德·吉尔(Elad Gil)
这是计算机在各种应用中的通用图像,对吗?我认为这同样适用于人类记忆。
安德烈·卡帕奇(Andrej Karpathy)
确实如此。我认为人类大脑有很多限制,比如工作记忆容量非常有限。而 Transformer 的工作记忆容量要大得多,这种优势将会持续存在。它们是更高效的学习者。人类大脑在各种限制下运作,背景、义务等概念并不明确,构成了一个非常随机的动态系统。它在各种限制和环境条件下工作。因此,我确实认为我们现在拥有的技术潜力实际上比人类大脑更强,只是还没有完全实现。
伊拉德·吉尔(Elad Gil)
你如何看待随着时间的推移,人类与不同 AI 系统的互动和协作不断增强?你认为这是一个可能的发展方向吗?使用 AI 模型来增强人类能力是否可行?
伊拉德·吉尔(Elad Gil)
我的意思是,当你把它作为工具使用时,有一个抽象版本,那是外部版本。很多人在讨论合并场景时,最终都会提到这一点。
安德烈·卡帕奇(Andrej Karpathy)
我的意思是,我们已经在某种程度上实现了集成。问题在于存在输入输出的瓶颈,但大多数情况下,如果你拥有这些模型,它们就触手可及。
伊拉德·吉尔(Elad Gil)
这个问题人们已经讨论了四五十年,认为技术工具只是人类能力的延伸。
安德烈·卡帕奇(Andrej Karpathy)
计算机是人类思维的辅助工具。
伊拉德·吉尔(Elad Gil)
例如,有部分 AI 社区认为,我们可以通过某种方式解决未来 AI 可能引发的冲突。
安德烈·卡帕奇(Andrej Karpathy)
哦,是的,就像神经连接的宣传一样。没错。我还不知道这次整合会是什么样子,但我确实能看出你想减少工具使用的意图。我认为这有点像在我们的大脑皮层上构建一个额外的层次,对吧?这只是下一层,它恰好是在云端。但它确实是大脑的下一层结构。
伊拉德·吉尔(Elad Gil)
《Accelerando》的早期版本提到,几乎所有事情都通过与大脑计算连接的护目镜来实现。如果你丢失了护目镜,可能会感觉失去了自己的一部分。我认为确实如此。
安德烈·卡帕奇(Andrej Karpathy)
这种情况很有可能发生。如今的手机几乎已经达到了这个地步。我认为情况可能会变得更糟。当你放下技术设备时,你只是在回归人类的本性。
莎拉·郭(Sarah Guo)
而且你会失去一部分智能。这一点一点也不令人兴奋。
伊拉德·吉尔(Elad Gil)
一个非常简单的例子就是地图应用程序。现在,许多人发现自己在城市中已经无法很好地导航了,因为他们总是依赖逐步导航。
安德烈·卡帕奇(Andrej Karpathy)
如果我们有了通用翻译器——我认为这一天并不遥远——那么如果你不使用它,你将失去与不讲英语的人交流的机会。
莎拉·郭(Sarah Guo)
我非常乐意重新激活我大脑的那部分能力,以进行更深入的研究。
安德烈·卡帕奇(Andrej Karpathy)
你是否看过那个视频,一个小孩试图在杂志上滑动。让我惊讶的是,这个小孩无法区分自然和技术,因为技术已经变得如此隐形。我认为类似的情况是,人们会开始默认这些工具的存在。当这些工具被拿走时,人们可能无法区分什么是技术,什么不是。如果你一直戴着一个设备,它总是在为你翻译每个人的话或做类似的事情,那么人们可能会失去辨别能力。
伊拉德·吉尔(Elad Gil)
基本的认知能力可能并不存在。是的,我认为确实如此。
安德烈·卡帕奇(Andrej Karpathy)
我无法理解那些说西班牙语的人。这让我感觉就像在家里或去迪士尼时,所有的物品都是有生命的。我认为我们可能会进入那样的世界,为什么我不能和物品对话呢?就像今天,你可以和 Alexia 对话,向她请求各种事情,等等。
伊拉德·吉尔(Elad Gil)
我见过一些玩具公司尝试将语言模型(LM)嵌入到可以与孩子互动的玩具中。
安德烈·卡帕奇(Andrej Karpathy)
当你走到一扇门前,只需说一句“开门”,这是不是很奇怪?这是怎么回事呢?哦,我还有一个喜欢的例子,不知道你有没有看过《毁灭战士》或《我,机器人》。人们会觉得你不能只是对着东西说话,这到底是为什么呢?
打造高性能小型模型
莎拉·郭(Sarah Guo)
在讨论外部信息时,这似乎是一个非常重要的议题,需要让大众了解。你认为当前大语言模型(LM)研究的市场格局是怎样的?实际上,只有少数大型实验室有机会进行下一代模型的训练。这将如何影响未来人们能够接触到的内容?
安德烈·卡帕奇(Andrej Karpathy)
你提到的可能是生态系统的现状,对吧?我们有几家封闭平台的寡头垄断,还有一些相对落后的开放平台,比如 Meta 和 Llama 等。这有点像开源生态系统的反映。我确实认为,当我们开始把这些东西看作是额外的脑皮层时,有一句加密货币领域的说法是:不掌握密钥,就没有访问权限。那么,是否可以说,如果不掌握权重参数,就不掌握大脑呢?
伊拉德·吉尔(Elad Gil)
这很有趣,因为实际上有一家公司在控制你的额外皮层,确实如此。
安德烈·卡帕奇(Andrej Karpathy)
这开始让人感觉有些侵入性。如果这是我的大脑皮层,我会非常不安。
莎拉·郭(Sarah Guo)
我认为人们更关心所有权。
安德烈·卡帕奇(Andrej Karpathy)
你知道吗,其实你是在借用你的大脑。这看起来似乎没什么问题。
莎拉·郭(Sarah Guo)
这个思想实验是:你愿意放弃所有权和控制权,去租用一个更好的大脑吗?我愿意。
安德烈·卡帕奇(Andrej Karpathy)
所以我认为这是一个权衡。我们可能会看到它的效果,但也许默认使用闭源版本是可行的,因为它们非常出色,但在各种情况下你有一个备选方案。我认为这有点像今天的情况,对吧?比如,当一些闭源提供商的 API 出现问题时,人们开始实施备选方案,比如完全控制的开放生态系统,他们因此感到有掌控力。所以也许这只是一个扩展,当出现问题时,你可以依赖开源的东西。但大多数时候你实际上会使用闭源版本。
莎拉·郭(Sarah Guo)
因此,持续推进开源项目是非常重要的。
安德烈·卡帕奇(Andrej Karpathy)
我百分之百确定,这并不是一个显而易见的观点,可能现在大家不会同意。
伊拉德·吉尔(Elad Gil)
我一直在思考一个问题:在某种意义上,性能最优的小模型在多大程度上能保持其性能,无论是参数大小还是其他方面。我很好奇你的看法,因为你对模型蒸馏有深入的研究。
安德烈·卡帕奇(Andrej Karpathy)
我认为模型可以非常小。当前的模型浪费了大量容量来记住一些无关紧要的东西。
莎拉·郭(Sarah Guo)
由于数据集整理得不够精细,所以确实存在问题。
安德烈·卡帕奇(Andrej Karpathy)
我认为这种情况会得到解决。我们只需要回归认知核心。认知核心其实可以非常简化,它只是一个思考的工具。如果需要检索信息,它知道如何利用各种工具。
莎拉·郭(Sarah Guo)
大约是 30 亿参数吗?还是 200 亿?我想甚至更多。
安德烈·卡帕奇(Andrej Karpathy)
我们可能会达到数十亿参数的模型,而且这些模型可以非常小。我认为它们可以非常小的原因,主要是因为蒸馏技术。蒸馏技术的效果出奇地好。蒸馏是指用一个非常大的模型或大量的计算资源来训练一个非常小的模型,这样实际上可以将很多能力压缩到各种小模型中。
伊拉德·吉尔(Elad Gil)
是否有某种数学表示或信息理论的公式可以描述这一点?因为现在应该能够计算出具体的内容。
安德烈·卡帕奇(Andrej Karpathy)
或许可以这样理解,我们回到正在处理的互联网数据集。互联网内容中,认知成分大约只占 0.001%,而 99.999%的内容只是信息。我认为大部分内容对认知没有用处。是的,我认为是这样。
伊拉德·吉尔(Elad Gil)
或许可以换一种方式来提问:是否存在一个数学表达式可以描述认知能力与模型大小之间的关系?或者,你如何在数学上表示认知能力?例如,这里是你想要达到的最小值或最大值吗?也许没有一个好的方式来表示。因此,我认为十亿个参数可能会提供一个不错的认知核心。
安德烈·卡帕奇(Andrej Karpathy)
我认为这可能是对的。即便是十亿也太多了。我不确定,但我们会观察。
莎拉·郭(Sarah Guo)
考虑到这一点,确实非常令人兴奋。关键在于选择是在边缘设备上处理,还是在云端进行处理。
伊拉德·吉尔(Elad Gil)
此外,该模型的初始使用成本及其所有相关费用也非常引人注目。
莎拉·郭(Sarah Guo)
当参数少于十亿时,我的外部处理单元也会在本地设备上运行。
安德烈·卡帕奇(Andrej Karpathy)
这可能并不是一个单一的模型,对吗?我觉得思考这个问题的实际情况很有趣。因为我们确实希望从并行化中受益,而不是采用同步的、顺序的过程。我们希望实现并行处理。我认为公司也在寻求工作并行化。然而,公司内部存在层级结构,因为这是简化处理和组织信息的一种方式。
因此,我认为最终我们可能会有使用大语言模型(LLMs)的公司。我觉得很有可能我们会有不同能力的模型,专门针对各种独特的领域。也许会有一个专门为程序员设计的模型等等。实际上,我们会在很大程度上开始像公司一样运作。程序员、项目经理等角色,LLMs 会并行工作,并为我们协调计算。所以,也许把它看作一个群体更为恰当。
伊拉德·吉尔(Elad Gil)
生态系统就像一个生物群落,我们各自扮演着不同的角色和生态位。
安德烈·卡帕奇(Andrej Karpathy)
我们会变成那样的。你已经具备了这个条件。
莎拉·郭(Sarah Guo)
根据问题的难度,自动将其升级到团队的其他成员,尤其是专家。
安德烈·卡帕奇(Andrej Karpathy)
CEO 就像一个非常出色的云服务,而员工则可能成本更低,甚至类似于开源模型。
莎拉·郭(Sarah Guo)
我的成本函数与你的成本函数不同。
安德烈·卡帕奇(Andrej Karpathy)
这可能会非常有趣。
安德烈在人工智能教育领域开展的工作
莎拉·郭(Sarah Guo)
你离开了 OpenAI,现在从事教育工作。其实,你一直以来都是一名教育者。为什么会选择投身教育领域呢?
安德烈·卡帕奇(Andrej Karpathy)
我一直从事教育工作,热爱学习和教学,因此这个领域一直是我非常热衷的方向。另一个驱动我的重要因素是,我认为 AI 领域有很多发展机会。然而,我注意到大多数发展都是为了取代或边缘化人类,而我更感兴趣的是那些能够赋能人类的技术。
在某种程度上,我站在人类这一边,对 AI 如何赋能人类充满兴趣。我不希望未来人类被自动化边缘化,而是希望人们能够被赋能,变得比今天更出色。此外,我还对一个问题非常感兴趣:如果一个人有完美的导师,他们能走多远?我认为,如果人们有完美的课程,他们可以取得很大的成就。我们看到一些英国人有私人导师,他们确实取得了很大的成功。因此,我认为我们可以通过 AI 实现这一点,甚至超越这一点。
伊拉德·吉尔(Elad Gil)
实际上,从 80 年代开始,就有明确的文献表明,一对一辅导可以帮助人们提高一个标准差。我想这是本杰明·布鲁姆的研究,对吧?是的,正是本杰明·布鲁姆的研究。确实有很多非常有趣的先例。您如何从人工智能的角度看待这一点?或者说,最有可能实现这一目标的产品类型是什么?有些书籍,比如《钻石时代》也探讨了类似的内容。
安德烈·卡帕奇(Andrej Karpathy)
所有这些事情都启发了我。因此,我目前正在尝试构建一门专门的课程,希望它能成为你学习 AI 时的首选。我认为基本的问题在于,我已经教过一些课程,比如在斯坦福大学教授的 CS230 和 CS229,这些都是非常成功的深度学习课程。但问题在于如何真正扩大这些课程的规模?比如,如何覆盖全球 80 亿人,他们说着不同的语言,能力水平各异。
因此,关键在于如何利用 AI 扩展优秀教师的影响力。 教师主要负责课程的创建和设置。因为以当前的 AI 能力,我认为模型还不足以创建一门好的课程,但足以作为学生的前端,向他们解释课程内容。因此,教师不再直接面对学生,而是在后台设计课程材料,AI 则作为前端。它可以使用多种语言,带你完成课程。
莎拉·郭(Sarah Guo)
我应该将其视为某种类型的体验,还是这个类比不太合适?
安德烈·卡帕奇(Andrej Karpathy)
我认为这可以看作是一个面向学生的界面,它实际上是与学生互动并引导他们完成课程的工具。尽管目前还不存在,但我相信今天已经可以实现这一点,并且可以做得非常好。随着时间的推移和技术能力的提升,这个系统可能会以各种方式被重构。我希望找到一些与当前 AI 能力相匹配的优秀模型。我认为很多公司可能没有准确理解现有的能力,最终会构建一些超前或不够完善的产品。因此,我认为这是一个兼具可能性和趣味性的最佳点,所以我想继续探索下去。
莎拉·郭(Sarah Guo)
回顾你之前提到的一个非常鼓舞人心的观点,结合你的背景和对当前研究状况的理解。我们实际上并不知道人类学习能力的极限在哪里,尤其是在有了更好的工具之后。我认为这里有一个简单的类比:我们刚刚经历了一个月前的奥运会,对吧?无论是跑步运动员的一英里最佳时间,还是其他任何运动项目,今天的成绩都比十年前好得多,撇开兴奋剂不谈。这是因为运动员开始更早训练,并采用了不同的训练计划。我们有了更好的科学理解和技术。你相信如果我们从一开始就有出色的工具和课程,我们作为人类可以变得更好。是的,我认为是这样。
安德烈·卡帕奇(Andrej Karpathy)
我们还没有真正探索所有的可能性。因此,我认为有两个维度值得关注:第一个是全球化,例如我希望每个人都能接受优质教育;另一个是个人发展的潜力。 我认为这两个维度都非常有趣且令人兴奋。
伊拉德·吉尔(Elad Gil)
通常,当人们谈论一对一学习时,他们会提到其适应性,即根据个人水平进行挑战。你认为当前的 AI 可以做到这一点吗?还是说这需要等到未来才能实现?目前的重点更多在于覆盖面和多语言支持。
安德烈·卡帕奇(Andrej Karpathy)
我认为一些容易实现的目标,比如不同语言的翻译,已经非常成熟。目前的模型在翻译方面表现出色,能够即时翻译各种材料。因此,我认为很多事情都是可以轻松实现的。至于适应个人背景的能力,我认为这虽然不是最容易实现的目标,但也并非遥不可及。这是一个值得追求的目标,因为每个人的背景都不尽相同。如果你对其他学科有一定了解,将其与已知事物进行类比是非常有用的,这在教育中尤为强大。
因此,这绝对是一个值得利用的目标。不过,我认为这需要一些努力,简单的版本可能并不遥远。你可以想象,只需提示模型“我懂物理”或“我懂这个”,就能得到一些结果。但我所说的是一些真正有效的东西,而不是偶尔能成功演示的。我指的是它能够像人一样真正有效地工作。
伊拉德·吉尔(Elad Gil)
这就是适应性的原因,因为每个人的学习速度不同,有些事情对某些人来说具有挑战性,而对其他人则不是。因此,你需要根据具体情况进行调整。我认为,随着时间的推移,你可以在另一个模型中重新引入这个人擅长或不擅长的内容。
安德烈·卡帕奇(Andrej Karpathy)
正如你所说,这正是 AI 的问题。我觉得很多 AI 的能力就像是随时可以调用的功能。所以你总是能看到演示,但真的能得到一个产品吗?你懂我的意思吗?从这个角度来看,我会说演示很近,但产品还很远。
伊拉德·吉尔(Elad Gil)
我们之前讨论过一个非常有趣的话题,即研究社区中的学术传承现象。你来自某个实验室,大家会谈论彼此的实验室背景。我认为,许多诺贝尔奖得主实际上曾在其他诺贝尔奖得主的实验室工作过。因此,这种文化、知识或声誉的传承是存在的。在一个以 AI 教育为中心的世界中,如何保持这种传承?或者这是否重要?你如何看待网络和知识传播的这些方面?对此,我没有特别的意见。
安德烈·卡帕奇(Andrej Karpathy)
其实,我希望生活在一个血统不那么重要的世界。因此,我希望 AI 能帮助我们打破这种结构。当前的结构似乎是通过一些稀缺资源来维持的,例如,只有少数人拥有特定的血统。所以我觉得这有点类似。因此,我希望 AI 能够改变这种情况。
莎拉·郭(Sarah Guo)
这无疑是一个完整的体系,如同真实的学习过程,是一个统一的系统。
伊拉德·吉尔(Elad Gil)
这也是一种集聚效应,对吧?比如,为什么大多数人工智能社区都集中在旧金山湾区?或者为什么大多数金融科技行业都在纽约?我认为很大程度上是因为你把有共同兴趣和信仰的聪明人聚集在一起,然后他们从这个共同核心传播开来,并以一种有趣的方式分享知识。你得承认,这种集聚效应在某种程度上已经转移到线上平台,特别是对于年轻人来说。
安德烈·卡帕奇(Andrej Karpathy)
我认为其中一个方面有点像教育。如果你是社区的一部分,你会获得大量的教育和学徒机会,这非常有助于你在该领域获得更多的自主权。另一个方面是文化,比如你的动机是什么,你想从事什么工作。文化重视什么,他们崇拜什么。例如,在学术界,大家都关心指数和你发表的论文数量等。
我曾是那个学术社区的一员,见证了这些现象。现在我来到不同的地方,发现每个社区都有不同的关注点。我认为这对人们的动机、社会地位以及他们真正重视的事物有着巨大的影响。我还曾是不同社区的一部分,比如在斯洛伐克和加拿大长大,那是非常不同的环境,那里重要的事物也各不相同。
安德烈·卡帕奇(Andrej Karpathy)
举个例子来说,我在加拿大多伦多大学读书时,多伦多并不是一个充满创业氛围的地方。你甚至不会想到要去创办公司。我的意思是,人们不会这么做。你没有朋友在创业,也不知道自己应该朝这个方向努力。人们不会读创始人的书,也不会谈论他们。这不是你向往或关心的事。大家谈论的都是你的实习在哪里,你以后要去哪里工作。大家都认为你应该从一组固定的公司中选择一个,并以此为目标。所以这些文化影响非常强烈,可能是主导因素。因为我觉得今天的教育已经相对容易了。比如说,现在有大量的资源可供使用。所以我认为主要是文化环境的影响。
莎拉·郭(Sarah Guo)
关于这一点,我们几周前讨论过一个问题,我记得你也在网上发布过相关内容,就是学习和娱乐之间的区别。学习实际上应该是有挑战性的。我认为这与地位问题有关,比如地位是一个很好的激励因素,谁是偶像。你认为通过这样的系统可以在多大程度上改变动机?如果这是一个阻碍因素,你是否专注于为人们提供资源,使他们能够在自己的能力范围内尽可能地进步,达到前所未有的高度。这是为了激励他们,还是你实际上想改变有多少人想要学习,或者至少让他们走上学习的道路。
安德烈·卡帕奇(Andrej Karpathy)
我希望学习变得更容易。也许有些人并不想学习。我的意思是,如今人们出于实际原因想要学习,对吧?他们希望找到工作,这很合理。因此,在现代社会中,教育是有用的。我认为人们会因此受到激励,因为他们在经济上不断进步。
莎拉·郭(Sarah Guo)
社会最重要。我们只是其中的一部分。
安德烈·卡帕奇(Andrej Karpathy)
是的,我认为教育在很大程度上是有趣的。
莎拉·郭(Sarah Guo)
包括像成功的教育成果,对吗?不仅仅是让内容随意地流过你。
安德烈·卡帕奇(Andrej Karpathy)
是的,我也这么认为。
莎拉·郭(Sarah Guo)
因此,结果是理解、学习并能够贡献新的知识。
伊拉德·吉尔(Elad Gil)
我们是如何被定义的?我认为这并非偶然。如果你回顾一百年前,工程师和科学家都是贵族或富有的人。
莎拉·郭(Sarah Guo)
我们将与安德烈一起学习如何成为一名贵族。
安德烈·卡帕奇(Andrej Karpathy)
我确实认为这和你之前提到的非常相似。学习在某种程度上就像是给大脑做健身,对吧?我觉得去健身房很有趣,人们喜欢举重等运动。当然,也有些人不去健身房。
莎拉·郭(Sarah Guo)
有些人确实会这样做,但这需要付出很大的努力。
安德烈·卡帕奇(Andrej Karpathy)
是的,这确实需要付出努力,但这是一种有意义的付出,而且还有些趣味。你还会因此在各方面感觉良好,对吧?我认为教育基本上也是如此。所以当我说教育不应该只是有趣时,我的意思是,它确实有趣,但这是一种特定的乐趣,对吧?我确实认为,也许在一个后 AGI(通用人工智能)的世界中,我希望人们不仅在身体上,还在心理上经常去健身房,这会被视为高度教育的象征。 这样可以吗?
莎拉·郭(Sarah Guo)
我想问你最后一个关于 Eureka 的问题,因为我觉得这会很有趣。人们会问,Eureka 到底是谁?
安德烈·卡帕奇(Andrej Karpathy)
这门课程的主要受众是谁?我认为主要是本科生和技术领域的从业者。当然,如果你正在攻读本科并且从事技术工作,这将是理想的受众。我确实认为我们现在看到的是一种过时的教育模式,即通过学校教育然后毕业去工作。显然,这种模式在快速变化的社会中将逐渐失效。随着技术的快速发展,人们会更频繁地回到学校。因此,这门课程虽然主要面向本科生,但任何年龄段的人都可以受益。我认为它的受众在年龄上会非常多样化,但主要是那些有技术背景并希望深入理解相关内容的人。
莎拉·郭(Sarah Guo)
他们什么时候可以开始上这门课?
安德烈·卡帕奇(Andrej Karpathy)
我原本希望能在今年晚些时候完成,但确实有很多事情分散了我的注意力。我认为明年年初是一个比较合理的时间表。是的,我在努力做到最好,这确实需要时间才能达到目标。
伊拉德·吉尔(Elad Gil)
我还有最后一个问题。其实,这与之前的问题有些相关。如果你现在有孩子,你认为他们应该学习什么才能在未来有所帮助?
安德烈·卡帕奇(Andrej Karpathy)
在我看来,有一个正确的答案,这个答案大多涉及数学、物理和计算机科学等学科。我之所以这么认为,是因为这些学科有助于培养核心的思维能力。 当然,我的背景和其他因素也影响了我的看法,但这只是我的个人观点。我觉得,就像我参加健身课和其他课程一样,这些学科塑造了我的思维方式,对解决问题非常有帮助。无论是在通用人工智能(AGI)出现之前还是之后,人类都需要在各种情况下发挥作用。因此,我认为选择这些学科是正确的,它们要么非常有用,要么非常重要。我认为,其他的知识可以在以后补充。但在关键时期,人们有大量的时间和注意力,我认为这些时间应该主要花在进行简单操作密集型任务和工作负载上,而不是记忆密集型任务和工作负载上。