在 AI 发展的关键节点,”务实应用”与”远大愿景”的博弈始终是行业关注的焦点。在 BoxWorks 2024 大会上,Anthropic CEO Dario Amodei 用他特有的务实态度,为这场讨论注入了新的活力。这位曾在 AI 安全领域深耕多年的专家,正带领团队用实际成果诠释着技术落地的真谛。
当谈到 AI 发展方向时,Dario 展现出罕见的清醒。在许多人热衷于预测 AGI 到来之际,他选择将目光聚焦在眼前:让 AI 在专业领域创造实际价值。这种务实态度在 Claude 模型的持续进化中得到了印证:其在编程任务上的表现较年初有了显著提升,展示了脚踏实地的技术进步。
与 Box CEO Aaron Levie 的对话中,两位科技领袖在 AI 对就业的影响上达成共识:AI 更像是一把”增强型工具”,而非简单的替代品。这个观点源于他们对技术本质的深刻理解,也反映了对人类价值的坚定信念。
在展望未来时,Dario 特别强调了可靠性和安全性的重要地位。对于 AI 在医疗等领域的应用,他展现出专业人士特有的谨慎乐观:技术确实大有可为,但必须建立在扎实的基础之上。这种平衡的视角,正是推动 AI 健康发展的关键力量。
Dario Amodei 的核心观点包括:
- AGI(通用人工智能)的不确定性:达里奥·阿莫迪认为AGI不是一个确切的术语,其发展过程更像是不断指数增长的过程,类似于摩尔定律的发展,而不是一个具体可预测的时间点。
- 模型方向性的重要性:阿莫迪强调了模型方向性的重要性,即需要精确引导模型以避免偏离目标。
- 模型性能与成本的权衡:阿莫迪讨论了不同规模模型的性能和成本权衡,以及如何通过技术进步推动小型模型达到大模型的性能。
- AI 在企业中的作用:阿莫迪认为AI将极大提升企业生产力和颠覆行业,尤其是在可靠性和可引导性方面。
- AI 对就业的影响:短期内,AI将提升人们的生产力,使工作更高效,而不是取代工作岗位。
- AI 的长期影响:阿莫迪提出了“压缩的21世纪”概念,预测AI可能在未来几十年内实现人类几个世纪的科学和工程进步。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
AGI 并不是一个确切的术语
亚伦·列维(Aaron Levie)
这些是一些重要的公告,我们希望大家能够消化这些信息。很明显,我们将会推出众多演示,以及各种方法来开始使用和互动这些技术。我们非常高兴今天有 Dario 与我们在一起。Dario 显然每天都站在人工智能突破的最前沿,因此我们希望他今天可以为我们分享一些最新的进展。不过,为了先聊一个简单的话题,人工通用智能(AGI)何时会到来呢?
达里奥·阿莫迪(Dario Amodei)
首先,感谢您邀请我来到这里。对于何时会出现 AGI(通用人工智能),我并没有确切的答案。我常常强调,AGI 并不是一个确切的术语。这个过程只是在不断地指数增长。 这就像在 1995 年有人提到摩尔定律时问:“我们什么时候会有超级计算机?”这个问题本身就不太合逻辑。超级计算机只是一种比我们今天拥有的计算机更强大的设备。
亚伦·列维(Aaron Levie)
等等,你是在批评我的开场问题吗?难道我真的搞砸了第一个问题?
达里奥·阿莫迪(Dario Amodei)
模型的能力正在迅速增强。
亚伦·列维(Aaron Levie)
如果 AGI(通用人工智能)并不重要,你是否考虑过关注其他哪些里程碑呢?
达里奥·阿莫迪(Dario Amodei)
因此,我认为一个非常重要的里程碑是模型能够可靠地完成许多公司进行的专业工作。 虽然可能无法做到全部,但至少能够部分完成任务,使专业人员在审核后认为质量合格并可以信赖。这适用于金融、法律、生物医学,以及保险、生产力软件和编程等领域。我认为这些进展不会同时出现,但我们可能正处于一个为期两年的开端,在此期间,我们将逐步跨越所有这些门槛。
亚伦·列维(Aaron Levie)
在我引导大家穿越时间之前,我们先来讨论这个话题,然后再回到起点。基于这种定义模式,你认为当前的软件编码处于哪个阶段?
达里奥·阿莫迪(Dario Amodei)
我对编程持非常积极的态度。 这是因为编程在训练模型和将其应用于现实世界时具有一些独特的优势。首先,编程可以轻松创建自成一体的流程。不同于使用机器人进入现实世界或像生物医学那样测试药物,仅需检查程序是否能编译、运行良好并达到预期效果。
在训练过程中,这个流程形成了不需要人为干预的闭环。在应用阶段,通过自动化验证,可以确保程序正常运行。因此,编码领域取得了显著进展,特别在进行诸如 SWE-Bench 这样的真实软件工程任务测评中。Claude 的表现非常出色,从今年一月仅达到 3%的行业标准提升到了在最新的 Sonnet 3.5 模型中超过 50%。这堪称一条 S 形曲线的增长。
亚伦·列维(Aaron Levie)
这是什么指标?它用于测量什么?
达里奥·阿莫迪(Dario Amodei)
基本上,SWE-Bench 是一个由现实世界中的拉取请求或任务组成的集合。可以说,它由一系列基础代码片段构成的工作单元组成。因此,我们发现其与现实世界的操作具有很强的相关性。
亚伦·列维(Aaron Levie)
在训练这个数据集时,模型会不会通过作弊来提高表现?
达里奥·阿莫迪(Dario Amodei)
不,这是一种包含保留测试的数据集。我们对这些评估变得更加严格,因为模型非常智能,可能会以某种方式规避测试。
亚伦·列维(Aaron Levie)
您是指从低百分比提升到 50%这段时间的变化吗?还是说未来我们会看到收益递减的趋势?
达里奥·阿莫迪(Dario Amodei)
我们最多只能达到 100%的水平,因此我们会看到一个 S 型曲线进入平台期,随后会面临更为严格的基准测试。这就像是只有 Jeff Dean 或其他您欣赏的传奇程序员才能实现的成就。我相信,总会有新的前沿,我们也总能找到新的任务。
亚伦·列维(Aaron Levie)
我们很想了解 Anthropic 的起源故事。显然,你们在 OpenAI 工作时就有不同的理念方法。这个起源故事是怎样的呢?这种方法又是如何发展成为我们今天所看到的结果的呢?
达里奥·阿莫迪(Dario Amodei)
回顾我在 OpenAI 的工作经历,我几乎从公司成立初期就已加入,并在那里领导了多年的研究工作。我和同事们(后来的 Anthropic 联合创始人)最初负责将研究重点从机器人技术和强化学习转向大语言模型。我们是最早支持“规模假设”或“辛苦学习”理念的人之一,这一理念认为,通过增加计算能力、扩大模型规模以及引入更多数据,能在各种任务中取得惊人的成果。
尽管这些模型表面上看似只是在预测下一个词,类似于高级的自动完成功能,但实际上它们在这个过程中掌握了许多技能,如编程、摘要、文档分析及信息排序和处理等。随着我们意识到这些技能的掌握,我开始考虑其影响,因为开发这些强大的系统需要非常谨慎。
关于规模假设,一种思维方式是,需要一个强大的火箭:引擎是模型,燃料是数据。那么,还需要什么呢?关键在于让火箭有明确的飞行方向,并要非常精确地引导,以免偏离目标。在这个比喻中,我们认识到了方向的重要性。 尽管我之前工作的公司逐渐接受了规模假设,但我们对模型方向性的重要性理解得更加独到。我们在与企业客户的实际应用案例中验证了这一点。
我相信,模型的可靠性、可信度以及行为的可预测性是阻碍其在企业中部署的主要原因。在这方面我们表现优异,这也是我们在企业和创业领域快速发展的原因。我们的 API 业务增长速度远超其他同行,但这一问题仍未完全解决,还需付出更多努力。尽管我们已经做得很好,但我认为这仍然是一个尚未彻底解决的问题。
亚伦·列维(Aaron Levie)
什么是代理理论?有人认为减少数据量可能更有用吗?还有其他方法吗?
达里奥·阿莫迪(Dario Amodei)
作为规模化理论的另一种观点,当时有人认为存在某种尚未被发现的算法或科学秘密。目前还不清楚这些秘密是否需要依赖规模化,或者是否会有其他突破出现。2017 年时,如果你曾访问过几家大型 AI 实验室——我当时参与了一些——流行的想法是,我们可能尚未发明出正确的模型结构,或者深度学习本身可能是个死胡同。
因此,许多人在探索不同的方向,如今仍有人在继续这种探索。这种做法依然合理。在不同领域分散投资是有意义的。然而,当时并没有充分认识到规模化理论的重要性。
亚伦·列维(Aaron Levie)
在过去两年中,这些模型的快速发展和性能提升令我们惊叹,而 Claude 显然处于这一变化的核心。有些人认为我们可能会遇到数据瓶颈,无法再大幅扩展至一到三个数量级。对此,你怎么看?我们目前处于什么阶段?这一趋势会继续有效吗?
达里奥·阿莫迪(Dario Amodei)
我对数据持非常乐观的态度。实际上,目前已有大量的数据来源,并且还有一些潜在的数据可供开发。
亚伦·列维(Aaron Levie)
目前没有额外的数据需求。
达里奥·阿莫迪(Dario Amodei)
是的,我认为,从总体上看,你需要的是高质量的数据。虽然可以从互联网上获取海量的词汇量,但其中很多内容仅仅是为了搜索引擎优化而撰写的。你需要的是实际含有知识的数据,而不是那些重复的模式或如今互联网上泛滥的内容。这就是一种方向,即生成更多这样的数据。其次是合成数据。
令人意外的是,有很多方法可以生成合成数据。回溯到八年前的 AI 时代,当谷歌 DeepMind 开发 AlphaGo 时,AlphaGo 的第二个版本 AlphaGo Zero 仅通过与自己对弈来学习,并击败了围棋世界冠军。它没有依赖人类的数据或信息,而是通过自我对弈进行训练。你可以将其视为一种合成数据。我们在 Anthropic 也正在研究类似的东西。
亚伦·列维(Aaron Levie)
对于那些试图跟踪行业未来发展的人来说,生成的虚拟数据就像创建一个示例合同或示例代码片段。
达里奥·阿莫迪(Dario Amodei)
是的,模型生成的数据与真实数据相似,可以用于训练模型。你可能会认为这是一种循环:模型生成数据,然后再用这些数据训练模型。这让我联想到围棋中,通过自我对弈,模型能够大幅提升水平。因此,这似乎像是一个循环,无法凭空创造新事物。然而,实际上,如果方法得当,这种方式是完全可行的。
亚伦·列维(Aaron Levie)
这并不是一台自动运行的机器或类似的设备,是的。
达里奥·阿莫迪(Dario Amodei)
当我们考虑进化或市场带来的所有复杂性时,会发现这些多样的自组织过程具有改善事物的能力。
较小的模型有望达到大模型的性能
亚伦·列维(Aaron Levie)
那么,如果我们假设数据前提和环境未发生变化,您能否谈谈在改进速度、成本或质量方面,模型有哪些进展?
达里奥·阿莫迪(Dario Amodei)
是的,我的意思是,这种趋势将继续发展。从产品的角度来看,我们通常认为,模型的智能程度与其运行速度和成本之间存在不同的权衡。因此,我们提供了不同的模型。我们系列中的一个模型是 Haiku,它是一个小型模型,价格低廉,速度快,并在价格和速度的限制下尽可能地智能。我们最近推出了 Haiku 3.5。此外,还有 Sonnet,这是一个中等规模的模型,而 Opus 则是规模最大、最智能的模型,但相对较慢,且成本更高。
我们的目标是不断扩大这个边界,以便未来的小型、廉价模型能够像过去的高级模型一样聪明。 例如,有理由相信 Haiku 将来可能达到 Opus 的性能。Haiku 3.5 在大多数方面几乎可以与 Opus 3 相媲美。因此,我们确实大大推动了发展曲线,这一趋势将继续下去。如果我们无法获得更多数据,就会依赖合成数据,包括依赖这些不断发布的新方法,比如推理型模型。规模化的趋势会一直持续下去,我们看不到任何放缓的迹象。
亚伦·列维(Aaron Levie)
您提到了 API 的使用。显然,在发布会上我们刚刚宣布了 Box AI Studio,客户将能够使用 Anthropic 作为在 Box 内构建代理的 AI 模型。这个模型可以用于总结文档、执行任务、自动化工作流程,以及提取结构化的元数据。您如何看待 AI 在企业中的作用?如何看待它与所有员工的关系?AI 将如何增强我们的工作呢?
达里奥·阿莫迪(Dario Amodei)
我想重申我的观点:我有一种强烈的直觉,我们也开始看到一些证据,证明 AI 提升企业生产力和颠覆各行业的能力远超我们目前的认知。虽然消费者在使用 AI 方面目前处于领先地位,但企业的增长速度也在加快。这种现象的产生,正是我之前提到的可靠性和可引导性问题的结果。
你拥有一个非常强大的模型,通过 API 提供服务并希望利用它来开展业务。然而一个关键问题是:能否信任它进行面对客户的操作?甚至是进行内部分析工作?因此,在过去约一年半的时间里,企业从非常有限的部署开始,观察效果,然后逐步扩大规模。初创公司可能发展最快,因为它们可能完全依赖一个模型来构建业务。我们见到了某些这样的案例,尤其是在编码领域。但在大型企业中,仍有巨大的价值潜力尚未开发。我认为我们正在经历指数级增长,并将持续上升。
因此,我对使用 Box 或其他模型的建议是:要有宏大的思维,考虑大规模的部署。每个月,通过我们和其他公司的发布,诸如幻觉、可靠性、准确性、推理能力等问题都在逐步得到改善,这可以创造大量企业价值。尽管初创公司正引领潮流,但这种趋势也正蔓延至更大的公司。我们开始看到增长曲线的加速,相信这将追赶并超越消费者对 AI 的使用。
亚伦·列维(Aaron Levie)
在硅谷及其他地区,人们一直在讨论这样一个问题:这究竟会取代工作岗位,还是会提高效率从而创造更多就业机会?至少在短期和中期内,您对此有何看法?
达里奥·阿莫迪(Dario Amodei)
当然,从短期和中期来看,我认为 AI 会提升人们的生产力,使他们更高效地完成工作,同时也使得整体更加均衡。中等水平的工人的能力会因此提高,而最有才能者的表现也会得到提升。 这涉及到一个强大的经济学原理,即比较优势。
简单来说,假设你有一份工作,而一个 AI 系统突然能完成其中 90%的任务。你可能会担心这会减少 10%的岗位或薪水,但实际上,人们会专注于剩下的 10%,这部分工作可能会扩展以填满整个工作,或者催生新的领域。人们可以通过这些领域来补充 AI 的工作,同时弥补其不足。因此,这确实是一个不断变化的目标。经济会为人们创造出新的工作。过去有许多打字员,许多事情需要手动记录,但现在文件的创建和共享非常简单,许多传统工作已经不再需要。
然而,这也使得人们有更多的时间专注于内容。也许在某个超智能 AI 所主导的未来,它可能比人类在各方面都更出色,但我们尚未达至那个阶段。我在与企业沟通时观察到的是,AI 更多地在创造价值,并被用于增强人类能力,而非取代人类。
经济学家埃里克·布莱尼奥尔森(Eric Brynjolfsson)进行了一项研究,涉及 AI 和自动化对经济的影响,他在 10 到 15 年前写了《第二次机器时代》。他的研究显示,企业如简单采取 AI 替代人类的策略,生产力提升有限。而当企业思考如何进行互补时,生产力反而显著提升。缺乏主动策略往往导致替代的叙述,而专注于 AI 与人类各自长处的互补策略,能够更有效地提升生产力。
亚伦·列维(Aaron Levie)
关于 AI 导致工作停滞的想法,我认为存在两个可能的误区。首先,我们并不处于一个没有激烈竞争的环境中。因此,对于提高生产力的观点存在一个问题:我可能会利用 AI 来自动化某些任务,并将这些收益放入一个并不明确的收益账户中,认为这是我需要达到的目标。但实际上,我面临着竞争。如果我的竞争对手没有把这些收益存入银行,而是将它们重新投资回公司以提升生产力,那么最终我将面临失败,甚至被淘汰。因此,很多时候,当你获得生产力提升时,比如通过提高销售代表或程序员的工作效率,你只是将这些投入重新注入到同一职能中,以便完成更多工作。
达里奥·阿莫迪(Dario Amodei)
或者是一个不同的函数。
亚伦·列维(Aaron Levie)
无论接下来会发生什么。
达里奥·阿莫迪(Dario Amodei)
无论是什么,这种观点类似于对“固定工作量谬论”的一种误解。在经济中,并不存在固定的工作量。一旦你在某些工作上变得更高效,这些技能就会被重新分配和再培训,以用于其他用途。
亚伦·列维(Aaron Levie)
这就引出了第二个问题,那就是如何调整心态。比如,我们可以通过 AI 加快某个任务的速度,然后继续下一个任务。看起来我们的任务似乎是无限的。我面临的最大问题,比如在处理医疗系统问题时,是等待下次医疗检查的时间过于漫长。设想一下,如果我们可以实现自动化,并使医生的效率提高 10%,那就意味着我在医疗系统中可以更快地进入队列。很多行业如果 AI 能真正提高我们的生产力,那么对这些行业的需求将是无止境的。这让我想到你几周前写的一篇文章,提到一个非常深刻的概念,即压缩的 21 世纪。
达里奥·阿莫迪(Dario Amodei)
什么是你的论点?
亚伦·列维(Aaron Levie)
你希望接下来在哪些方面看到事情的进展?
达里奥·阿莫迪(Dario Amodei)
我基本的想法是,如果我们能达到这样一个阶段,AI 在大多数任务中已经超越了专业水平,并且我们可以建立数以百万计这样的系统,那么这就像是一个天才之国与数据中心的结合。这是一个奇特的情境,对吧?人类文明从未经历过这样的状况。那么,当你能够迅速发明出一切可能被发明之物时,会发生什么呢?
我有很多理由认为事情未必会如此发展。但我确实相信,在未来的一百年里,我们在科学和工程领域中努力去发明的一切,可能在五到十年内就能实现。 作为一名前生物学家,我对生物学领域特别感兴趣,尤其是在学术界、生物技术公司和大型制药公司之间的生物医学发现。我认为我们有巨大的潜力去攻克许多我们仍面临的疾病。许多简单的问题,比如可以通过卫生、疫苗接种或抗生素解决的疾病,我们已经应对过,但癌症和阿尔茨海默症等问题则复杂得多。
因此,我在想,AI 是否真的是我们需要的工具,能帮助我们理解这些复杂性,并且坦率地说,比大多数人预想的更快地战胜这些疾病。一直以来,我们生活在一个这些疾病难以解决、进展缓慢的时代。我认为,事情不必总是这样。如果我们采取正确的措施,那些现在无法治愈的疾病实际上是可以被克服的, 而且将来回顾这些疾病时,就像我们现在回顾过去的鼠疫或腮腺炎等疾病一样。
亚伦·列维(Aaron Levie)
没错,我尽量避免去回忆有关黑死病的事情,所以能够摆脱这样的困扰会非常好。现在的时代就像是 21 世纪的快速发展期,各个领域都在迅速进步。那么,我们还是回到正题吧。目前你最喜欢用人工智能来做什么事情呢?
达里奥·阿莫迪(Dario Amodei)
我非常喜欢用它来编程,可能是因为我们在 Claude 上投入了大量时间进行编程。此外,我还喜欢用它来写作,比如我正在写这篇文章的时候……
亚伦·列维(Aaron Levie)
那不是你写的吗?
达里奥·阿莫迪(Dario Amodei)
你知道,我会用 Claude 来帮我。其实,每一个字都像是我写的。不过,我发现,如果我想写一些真正出色的内容,现有的大语言模型在风格上似乎并不够出色。然而,它们在生成想法和帮助我理清思路方面确实很有用。最终版本仍然是由我自己撰写的。是的。
亚伦·列维(Aaron Levie)
非常感谢!女士们、先生们,以及 Dario,我们非常感激能够建立这次合作伙伴关系,并期待继续与大家合作。谢谢。