此次访谈由 Y Combinator 的首席执行官 Garry Tan 主持,嘉宾包括合伙人 Jared、Harj、Diana。Y Combinator 是一家知名的创业公司孵化器和风险投资公司,历史投资项目包括 Airbnb 和 Reddit 等。节目深入探讨了通用人工智能(AGI)的未来发展,特别是芯片设计领域的创新进展。
访谈中详细讨论了 AI 如何在科学研究和工程领域超越人类能力,从而加速科学发展的可能性。节目中引用 Sam Altman 的预测,在未来四到十五年内,AGI 和 ASI(超人工智能)实现的可能性成为讨论焦点。嘉宾们还提出了通过 AI 设计芯片来突破 AI 智能瓶颈的观点,并展示了在黑客马拉松活动中的实际应用及其显著成效。
访谈者的核心观点包括:
- AGI 与 ASI 的预测:Sam Altman 预测,通用人工智能(AGI)和超人工智能(ASI)将在未来四至十五年内出现,这一观点得到了业界的关注和讨论。
- AI 在科学领域的潜力:Sam Altman 认为 AGI 在科学领域的表现将超越人类,加速科学发展,这与 OpenAI 的创立初衷和目标紧密相关。
- AI 在芯片设计领域的应用:AI 在芯片设计领域展现出巨大潜力,能够比人类更高效地设计芯片,这可能突破 AI 获得更高智能的瓶颈。
- AI 与电子设计自动化(EDA):AI 在 EDA 工具中的应用,如 Diode Computer 公司开发的 AI 设计师,展示了 AI 在自动化电路设计和布线方面的进步。
- AI 的推理与思考能力:AI 的发展不仅在于输出正确答案,更在于其推理路径和思考过程,这需要模型能够反馈每个步骤的正确性,以教模型如何更好地思考。
- AI 技术的商品化与技术团队的价值:尽管 AI 技术可能商品化,但拥有强大技术团队的公司仍能通过提供高标准服务获得价值,特别是在追求精准度和完美度的客户群体中。
AGI 将在未来四至十五年之间出现
陈嘉兴(Garry Tan)
最近,Sam Altman 写了一篇引人注目的文章,预测 AGI(通用人工智能)和 ASI(超人工智能)将在未来数千天内出现。在本周一,他甚至直接预估这个时间范围是在四到十五年之间。 大家看过那篇文章吗?对此有什么看法?
贾里德·弗里德曼(Jared Friedman)
是的,我读了这篇文章。让我感到有趣的是,我们能够从一个独特的视角近距离观察 OpenAI 的诞生,因为它基本上是在 YC 的孵化中成长起来的。因此,对我而言,这篇文章非常有趣,因为它与 Sam 在 2015 年创立 OpenAI 时的想法完全一致。
从我认识他以来,他一直在谈论这些内容。2015 年他表达这些观点的时候,听起来有些疯狂,没有多少人认真看待。然而,现在,几年过去了,事实证明他的看法是正确的。实际上,我们距离实现 AGI 比 2015 年人们所预期的更加接近。现在,这一切听起来不仅不疯狂,反而非常可信。
陈嘉兴(Garry Tan)
这篇文章是我很长时间以来读到的最具技术乐观主义色彩的内容之一。作者谈到的一些即将实现的目标相当惊人,比如太空殖民、解决气候问题、随处可用的智能技术以及能源的充足供应。我认为,作者基本上是希望人类通过智慧来迎接一个如《星际迷航》般的未来,能够理解所有的物理学。
贾里德·弗里德曼(Jared Friedman)
是的,Sam 一直以来都是这样……我记得在他创办 OpenAI 时,促使他这样做的一个重要原因是,他相信通用人工智能(AGI)在科学领域的表现将超越人类,从而加速所有科学领域的发展。这也是他最初的动机之一。我认为这与某些计划(如 O1)密切相关。即便在大约一年前,当 Sam 来我们这里演讲时,O1 还处于 OpenAI 的秘密研发阶段,并未公开发布,而他最感兴趣的话题就是提升 GPT 的高级推理能力。我认为这就是原因,因为要真正具备科学研究的能力并推动技术进步,就需要拥有思考和推理的能力。
哈吉·塔格尔(Harj Taggar)
特别值得注意的是,在一篇关于 O1 的论文中提到,人工智能在芯片设计领域表现出色,并展示了其能力和未来潜力。我记得大约一年前,人们还在讨论我们是否能拥有通用人工智能(AGI),以及它会是什么样子。其中一个论点是,将来某个时候,人工智能将能够比人类更好地设计芯片,从而克服自身在获得更高智能方面的瓶颈。 因此,似乎我们正沿着这条道路前进,这是前所未有的。
贾里德·弗里德曼(Jared Friedman)
戴安娜将围绕这一主题进行一次精彩的展示。
戴安娜·胡(Diana Hu)
这次黑客马拉松活动很有意思,我们与 OpenAI 一起举办了此活动,Sam 还亲自来参与评选优胜者。其中一个参与者是名为 Diode Computer 的芯片设计公司,我想我们之前提到过他们。他们正在开发的产品基本上是一种用于电路设计的 AI 设计师。
通常,印刷电路板设计需经过四个主要步骤,这个过程繁琐且昂贵,并且需要大量的专业知识。步骤包括系统设计(如如何搭建架构)、设计所有组件(比如电阻器、传感器、处理单元)以及带有原理图的布局设计和布线。布线通常被视为 NP 完全问题,因为电路板中有不同的层次,会产生干扰。这也是像 NVIDIA、Intel、Apple 这样的公司需要大量电气工程师的原因。
Diode Computer 在 GPT-4 时代开发的产品,在自动化原理图设计方面取得了一些进展,并在一定程度上实现了简单的布线自动化,这在当时已经相当出色。他们成功地自动化了这些设计过程。令人难以置信的是,他们现在通过 O1 展示的功能,能够进行系统设计和组件选择。
该产品可以读取所有数据表,并选择合适的组件。产品的运作方式是用户仅需说明想要构建一个带加速度计和微控制器的可穿戴心率监测器,这一高层次的需求即可与数据库匹配,挑选出具体的加速度计、微控制器和心率监测传感器,并连接输出最终结果。
嘉宾(Diode Computers)
我们今天的目标是设计一款类似于 Whoop 的可穿戴心率监测器。尽管 O1 系统性能卓越,但运行速度稍显缓慢。因此,我们提前缓存了一张由 O1 生成的系统图。这张系统图非常完善,包括 USB-C 接口、惯性测量单元(IMU)、心率传感器和微控制器。
接下来,我将演示如何从这一阶段开始制作印刷电路板(PCB)。我们的项目成果是代码,并使用了一种名为 AutoPile 的电子即代码语言。可以看到,AutoPile 能够根据需要精确地拼接所有模块图,生成电路板布局。
现在,我们可以直接打开这个布局查看电路板,效果非常出色。我们仍需进行一些微调,例如稍微移动 USB Type-C 接口并改变电路板形状。借助我们构建的系统,我们可以在这个特定电路板上调用自动布线功能,从而生成一个完全可用的印刷电路板。
戴安娜·胡(Diana Hu)
因此,这实际上是某篇关于电子设计自动化(EDA)的论文中的一个例子,但他们实际上更深入地探索了该领域。论文例子描述了 EDA 工具集在电路设计中的应用过程,这些工具不仅用于设计电路示意图,还包括仿真和错误验证。与传统方法中的选择和编写相比,这种方式更容易实现设计验证。这家公司在此基础上取得了更大的进展,因为该论文主要集中在验证和仿真过程的最后阶段。
陈嘉兴(Garry Tan)
我认为这是一个有趣的例子,展示了如何在不同任务和工作流程中应用不同的模型。为了能够在开始前就选择正确的组件,即使在将它们放置到电路板之前,你可能需要使用像 RAG(检索增强生成)这样的技术,将 PDF 文档等非结构化数据转化为结构化数据。之后,似乎使用了 4.0 Mini 来实际提取这些数据,并将其整理成可用的格式。
戴安娜·胡(Diana Hu)
对于 O1 版本的格式,我认为这是一种非常常见的模式,许多有趣的产品都是以这种方式构建的。您可以使用不同类型的模型。因此,确实如此,4.0 迷你版用于 PDF 提取,而 0.1 版本则用于推理,因为选择零部件实际上是非常困难的。我知道,Jared,你也与许多硬科技公司合作,选择服务器、电机、传感器等组件的过程中,确实需要人们投入大量精力进行思考。
贾里德·弗里德曼(Jared Friedman)
在这个例子中,我觉得另一个有趣的点是,在批处理过程中,在 O1 发布之前,Diode 曾尝试使用 GPT-4.0,但没有成功。后来,他们用相同的方法和提示词输入 O1,结果一下子就成功了。这真正展示了能力逐步解锁的过程。
戴安娜·胡(Diana Hu)
当我与他们交谈时,他们显得异常兴奋,向我展示了他们的成就。每个人脸上都挂着灿烂的笑容,仿佛在表达“哇!”的惊讶之情,连他们自己都感到非常意外。
贾里德·弗里德曼(Jared Friedman)
由 Diana 举办的这次黑客马拉松,我认为其概念非常有趣。在大多数黑客马拉松中,人们通常只是开发一些不会真正投入使用的项目。然而,这个黑客松的独特之处在于,它吸引了所有真正获得 YC 资助的初创公司,这些公司不仅拥有实际的业务,还有资金和用户支持。它们正在为自己的产品进行开发,并计划将实际功能发布给真实用户。我觉得这很酷,因为我们可以看到 O1 不仅仅是为玩具项目,而是为真正的公司解锁新功能。
戴安娜·胡(Diana Hu)
我猜测,Harj,你是在 Camfer 工作,对吧?请介绍一下 Camfer 的功能。
哈吉·塔格尔(Harj Taggar)
他们的宣传语是”Devon for CAD”。实际上,这意味着你可以通过自然语言直接创建 CAD 设计。只需输入你想设计的内容,它就会自动生成相应的 CAD 设计。
陈嘉兴(Garry Tan)
所以,你能不能为我设计五种优化的空气箔片,时速 50 英里/小时,阻力与升力的最小值为 15,攻击角为 5° ?
戴安娜·胡(Diana Hu)
通常,机械工程师需独立执行所有的模拟工作并求解模型中的方程。至于你所见的动态表现,其实相当于同时进行了四个模拟。
陈嘉兴(Garry Tan)
这实际上类似于 SolidWorks 的辅助设计工具。
哈吉·塔格尔(Harj Taggar)
他们最初计划将其开发为 SolidWorks 的插件,但却选择了一种技术上更具挑战性的方式,类似于在桌面上运行的可执行文件,通过这个文件可以启动 SolidWorks。
贾里德·弗里德曼(Jared Friedman)
它将开始在用户界面中点击,模拟人类的行为。
哈吉·塔格尔(Harj Taggar)
好的。
戴安娜·胡(Diana Hu)
刚才您看到的实在是非凡之举……他们展示了数学推导过程。O1 实际上能够列出所有这些方程及偏微分方程,并高效地解决了一个简单的斯托克斯问题,从而解决了一个机翼的流体动力学问题。
陈嘉兴(Garry Tan)
这真是太酷了。我们上次讨论到你在实现两个数量级增长后的计划。之后,Sam 告诉我,他实际上希望增长到四个数量级,将投资额提升到万亿美元。这听起来相当疯狂。但另一方面,你可以预见这可能带来的影响。你可以设想,一个依然令人印象深刻且复杂的翼形结构,这是我们在 2024 年今天能够实现的。
通过抽象化来理解物理的本质,我想这是可能的。在当前版本的 O1 中这可能难以实现。但如果扩展定律有效,那么室温核聚变等更为复杂的工程挑战似乎完全有可能实现,毕竟这些归根结底都是工程问题。
戴安娜·胡(Diana Hu)
流体力学和天气预报都是极其复杂的物理现象,理解起来非常困难,通常需要博士学位才能真正掌握。引用 Sam 的文章,这给了我们一瞥 AI 的发展方向,以及 O1 在思维链和推理方面的未来前景。
哈吉·塔格尔(Harj Taggar)
特别是,Sam 表示这种氛围有点像是在培育智能,象征着一个新时代的开启。然后,论述中提到,不仅可以反馈输出结果是否正确,还可以对获取正确答案的每个步骤进行反馈。这实际上是教一个模型如何思考,就像某团队提到的推理路径一样。这样的方式可以让他们回过头来微调每个输出的各个步骤,以确保模型按照他们期望的方式进行思考。
我感觉这与几年前关于人工通用智能(AGI)讨论的内容有相似之处。真正开始教模型更好地思考,而不仅仅是输出正确答案,会带来什么变化?然后涉及规模化定律,这就像是为问题增加更多的计算资源一样。现在,你基本上可以在推理步骤中投入计算资源……
陈嘉兴(Garry Tan)
你可以不断投入更多的资金和时间,以逐步改善结果,这与科学组织对于项目发展的期望类似,甚至可能更加一致。
贾里德·弗里德曼(Jared Friedman)
戴安娜,你能介绍一下 O1 的架构以及他们实际的创建过程吗?
戴安娜·胡(Diana Hu)
我认为,他们的许多灵感都源自于多年来在 OpenAI 的工作。其中一个灵感来源是他们在 Dota 项目上所做的大量工作。
贾里德·弗里德曼(Jared Friedman)
在 OpenAI 因 GPT 而闻名之前,科技界广为人知的一个事件是其人工智能程序在 Dota 2 电子游戏比赛中取得胜利。这是他们的首次重大突破。
戴安娜·胡(Diana Hu)
有趣的是,我想那时 Dota 还未成为全球现象。我的意思是,可能只有学术界的人才了解它,而它还没有实际应用。但令人印象深刻的是,许多顶尖的 Dota 玩家都败给了它。Dota 是一款复杂的资源管理与战略规划游戏,对吧?他们在游戏中应用了许多强化学习技术,我认为这些技术在早期阶段也受到了 AlphaGo 和 AlphaZero 在围棋问题上取得成就的启发。
这并非单纯依靠蛮力,而是重新设计功能,并尝试在这个方向上改进。因此,现在有许多关于 Q learning 的讨论,因为它是强化学习(RL)的基本算法之一。
贾里德·弗里德曼(Jared Friedman)
因此,通过 Dota,他们在强化学习方面取得了显著的进展。这就是他们使其取得成功的方法——他们让它进行了上百万场自我对抗的游戏。那么,这与 O1 有什么联系呢?
戴安娜·胡(Diana Hu)
我认为这是一个重要的转折点,因为我们需要考虑如何将其融入到 GPT 模型家族中。GPT 依赖于生成性原理,通过预测下一个词元和模式识别,并验证结果的准确性。因此,我认为在很多情况下,需要大量高精确度的数据来训练模型,并通过奖励机制引导模型对输出进行推理,以确保其正确性。为此,他们可能采用了许多创新技术,或许在数据来源上有不少“秘密武器”。我们可以推测,他们可能使用了大量非常准确的数据。
AI 不会削弱强大技术团队的重要性
贾里德·弗里德曼(Jared Friedman)
令我感到有趣的一点是关于规模定律的讨论。许多人关注下一个模型的规模,比如即将训练的 GPT-5 系列,研究者们专注于它们的发展并期待它们的问世。然而,我认为大家可能低估了另一个方向上的重大突破。目前有两条平行的研究路径:一是直接扩展基础大语言模型的规模,二是通过在真实世界中对模型进行强化学习,通过实践提高其能力。
至今为止推出的版本仍然只是 O1 Preview。如果查看发布的性能,全新的 O1 模型(即将推出)与 O1 Preview 相比,将是一个巨大的飞跃,这种进步在黑客马拉松中已显现出惊人的成果。Sam 刚刚向我们透露,O2 和 O3 也将在不久的将来问世。因此,我认为人们可能低估了即将到来的巨大突破。
陈嘉兴(Garry Tan)
是的,O1 目前仍然缺乏透明性。从商业角度来看,这是一种新的方法。我认为他们确实投入了大量资源来创建一个新的数据集,用于训练链式思维。这个数据集实际上非常庞大,包含了处理任务 X 的案例,需要将其分解成多个步骤。
有趣的是,这与 Jake Heller 在 CaseText 中采用的方法相似:如果大型语言模型对某个任务的响应不佳或输出不一致,往往是因为试图让特定的提示承担过多的任务。因此,Jake 的建议包括两个部分:首先是将任务分解成多个步骤,然后进行评估。
在使用 O1 时,链式思维基本上成为替代传统工作流的方法。这意味着你可能不再需要手动将任务分解成步骤,但评估仍然至关重要。即便在 Jake Heller 事件之后,一些创业孵化器(YC)校友联系说,那期节目帮助他们发现并解决了一些重要问题。许多人之前只是直接使用提示。
贾里德·弗里德曼(Jared Friedman)
是的,只要按照 Jake 的建议去做,比如准备一个非常大的评估集,并仔细测试每一步推理过程。
陈嘉兴(Garry Tan)
因此,我现在的一个假设是,将此理论与企业的“护城河”结合起来思考,这是当前大家关注的一个关键问题。比如,像 GPT5 这样的技术即将面世,未来可能会有提升两个或四个数量级的可能,数万亿美元可能会被投入用于更多的训练。这的确让人震惊。如果我是一个唱片公司,或者从事垂直市场的 SaaS 行业,或者我正在尝试创建自己的业务,该如何应对这种变化?
我的假设是,这关系到对特定事件的把控。唯一创建 1 万个测试用例的方法是使用专有数据,这些数据并不容易获取。在本次 YC(Y Combinator)批次中,我们有许多公司在这样做,他们专注于企业销售,深入研究并“潜藏”在这些有时非常无聊、复杂或晦涩的工作中。他们处理从应收账款到财务核算或法务会计等各种难以获取的信息。
可以说,几乎所有消费者和公开的互联网数据都会输入基础模型。因此,最关键的“护城河”在于那些尚未在线的数据,例如律师所需的案例文件,或者科学研究和空气动力学设计领域所需的内容。 你要寻找的是某个特定应用场景或垂直领域的专有数据,从而构建 1 万个测试用例进行评估。这就是其价值所在。尽管这是一个令人难以置信的假设,但这可能就是最终会发生的事情。
哈吉·塔格尔(Harj Taggar)
有趣的是,基于你刚刚提到的内容,对于初创公司来说,一个值得探索的方向是识别那些愿意为追求最终 10%精准度和完美度而支付高价的客户群体。例如,Camfer 的文本到图像设计工具很受需要快速搭建和原型制作的爱好者欢迎。
然而,市场上还有一部分客户,他们设计的产品如飞机零件,对错误没有丝毫容忍。O1 工具现在让用户更容易完成 80%的初步原型工作。然而,我认为技术实力最强的团队有能力完全满足这些高标准需求,尤其是针对那些追求 100%精准度且愿意高价支付的客户。
哈吉·塔格尔(Harj Taggar)
我认为这很有趣,因为其中一个讨论的观点是,AI 是否会导致大量技术商品化,从而削弱拥有强大技术团队的重要性。在我看来,这种情况似乎不太可能。实际上,结果似乎恰恰相反。
哈吉·塔格尔(Harj Taggar)
最强的技术团队可能在基础技术上进一步发展,并获得所有的价值,实现最后 10%的成就。
贾里德·弗里德曼(Jared Friedman)
嘿,加里,我认为关键在于提示技术、评估、用户界面及相关集成。因为只有提示功能本身,并不是一个完整的产品。为了让公司真正采用 Camfer,它需要整合到他们现有的工具中,拥有经过深思熟虑的用户界面和工作流程,以及所有必要的工具,从而提高提示技术的效果。
陈嘉兴(Garry Tan)
接下来就要讨论分发问题了,对吧?例如,如何真正与用户直接接触?如何建立你的品牌?一个很好的护城河就是转换成本。一旦你收集到所有数据并使其正常运作,无论是每年支付 、10,000、100,000,甚至是 万到100万到1000 万的年度合同价值(ACV),转换就会变得非常困难。因此,所有经典的护城河依然有效。虽然这仍然是软件,但它可以释放这一潜力,这是一个恰当的时机。
戴安娜·胡(Diana Hu)
强调评估的重要性还有一个原因,即使在 O1 的世界中,这一点仍然适用,因为创始人们正在考虑如何基于 O1 打造最优产品。这会有所改变吗?我们与 Jake Heller 在节目中的所有讨论均适用,因为 Harj 曾与 Giga ML 合作过。
哈吉·塔格尔(Harj Taggar)
是的……还有 Garry,对吧?
戴安娜·胡(Diana Hu)
你能介绍一下他们的工作吗?
哈吉·塔格尔(Harj Taggar)
起初,我们资助了一个创意完全不同的项目。这个项目是由一个印度团队创立,旨在帮助印度高中生申请美国大学,属于非常小众的创意。
陈嘉兴(Garry Tan)
他们可是毕业于印度理工学院(IIT),是非常优秀的 AI 工程师和研究人员。
哈吉·塔格尔(Harj Taggar)
事情就是这样发生的。当时我们认为,这不是个好主意。AI 正在改变世界,而你在大学或学院的研究与 AI 密切相关。尤其是像微调大语言模型(LLM)这样的研究——最初,开发这个版本的 AI 并不是为了帮助印度高中生申请,这只是一个典型的 Y Combinator 故事:两个看起来非常聪明的工程师。
虽然我们对这个想法不甚满意,但最终还是决定资助他们,希望事情能有一个好结果。他们最初转向的想法是帮助公司微调开源模型,以实现相同的性能,并为此筹集了种子资金。当时,只有 OpenAI 这样做,但总的来说,我们发现这些商业模式并未证明成功,因为模型的成本降低了,而开源模型的性能却有所提升。
陈嘉兴(Garry Tan)
实际上,你并不需要像人们想象的那样过于微调。
戴安娜·胡(Diana Hu)
由于这些模型不断改进,就像是在为通用人工智能(AGI)的未来下注。我们相信这些模型将持续优化,因此无需过多微调。是的。
哈吉·塔格尔(Harj Taggar)
于是,他们再次进行转型,决定专注于他们非常擅长的人工智能领域。如今,他们已经成为模型微调和性能优化的专家。为了寻找一个合适的垂直应用领域,他们选择进入竞争激烈的人工智能客户支持行业。我认为,只要团队技术实力强,就能够以各种方式在这个领域中获得竞争优势,而这正是他们目前所努力的方向。
戴安娜·胡(Diana Hu)
客户支持的挑战在于需要处理许多不明确的问题。存在很多特殊情况。作为客户代表,可能会遇到各种各样的难题。
贾里德·弗里德曼(Jared Friedman)
尽管竞争激烈,但实际上几乎没有实际应用。目前还没有看到 AI 在全球范围内取代所有客服代表。虽然我们可以预见这种情况会发生,但现在仍未实现。从这个角度来看,未来依然充满机遇。
哈吉·塔格尔(Harj Taggar)
我发现,至少在上次与 Giga ML 团队交谈时,接受度低的部分原因在于基于规则的系统在大多数简单案例中表现得相当出色。人们不相信能够构建出足够优秀的 AI 来解决真正复杂的问题。 因此,多数被建议采用 AI 客服代理的公司认为,这些代理实际上无法全面解决那些耗时的问题。而对于其他所有问题,基于规则的系统已经能够很好地运行。
所以我记得,当他们最初推广这个想法时,人们觉得完全多此一举,因为基于规则的系统表现得很好。不过,看起来这种情况已经有所改变。
贾里德·弗里德曼(Jared Friedman)
确实,他们现在确实有一些非常可靠的客户。那到底有哪些客户呢?
哈吉·塔格尔(Harj Taggar)
Zepto 已经完成注册。
陈嘉兴(Garry Tan)
我了解到,Zepto 公司每天自动化处理 30,000 个工单,并雇佣了一千多名员工来处理这些工单,这意味着每位员工平均每天处理 30 个工单。有趣的是,这反映了一些人对人工智能的担忧:这些工作会因为自动化而消失吗?
然而,Zepto 的客户支持工作中有一个有趣的现象:这些工作并不吸引人,员工流失率极高,大多数人在这里工作的时间不超过六个月。这是一个有趣的案例,当工作过于机械化时,实际上可能会降低工作的价值。这类工作往往不够理想。希望这些员工能将他们的时间和智慧用于更具挑战性和吸引力的工作,而不是机械化的任务。
陈嘉兴(Garry Tan)
对的,没错。
戴安娜·胡(Diana Hu)
在 O1 上,他们发现了一些惊人的现象。正如 Harj 所指出的,他们最初的实现方法是使用 GPT 结合一些规则。然而,这种方法在大多数情况下表现不佳,错误率高达 70%。现在,他们采用 Jake Heller 描述的技术,结合严格的评估和 O1 方法。在黑客马拉松期间,他们将错误率降至 5%,极大地改善了结果。
哈吉·塔格尔(Harj Taggar)
另一位角色也同样令人难以置信,不是吗?我的意思是,那些异常复杂且极其复杂难解的问题,通常需要耗费大量时间和资源,基本上这些任务无法顺利完成。它们就像拖慢工作的机器,几乎没有任何效率。在销售中遇到的问题是,很多人想要自动化的部分恰好是这些复杂的、偶发的情况,从而浪费了大量时间,他们实际上无法应付这些情况。但现在,通过预览版本 01,他们的准确率已经提升到大约 85%,错误率大约在 15%。
贾里德·弗里德曼(Jared Friedman)
对,他们的准确率从 0%提高到了 85%。
陈嘉兴(Garry Tan)
有趣的是,这项技术仍处于预览阶段,新颖程度让他们似乎在努力保护自己的技术优势。在 ChatGPT 中使用这项新技术时,它会向你展示实际发生的情况,但显然他们有一个用于模拟过程的模型,只是输出一些内容,让你以为是分解成了步骤。
实际上,他们已经隐藏了这项技术,因为不希望其他人现在获取这些数据。不过,下一步似乎需要一些可解释性和指导性。如果这项技术的第二版能够实现这些,我会很感兴趣。希望能看到整个过程,展示步骤,然后在某个步骤,比如说第三步,可以重新运行,并以不同方式进行分支。
戴安娜·胡(Diana Hu)
或者编辑它。我认为这是即将推出的一个功能。目前,AI 能够生成解决问题的思维链,不过这些步骤还不能编辑。想象一下,AI 现在能够提供解决问题的 15 个步骤;再想象一下,如果你可以编辑每一个步骤。那么,你将能够进入一个经过精细调校的全新阶段。
陈嘉兴(Garry Tan)
所以,这些模型现在正处于它们性能最差的时候,对吗?就在此时此刻。每周都有一些上个月无法做到的事情,现在却能出色完成。这听起来真是历史上相当疯狂的时刻。
戴安娜·胡(Diana Hu)
因此,我们一直在讨论那些通过改进特定模型(如“O1 模型”)实现突破发展的公司和创意。那么,哪些创意是相反的,并没有从模型的改进中获益良多?人们甚至可能需要考虑转变方向,因为在模型的不断改进(如“O1、O2、O3 的改变”)中,他们有可能会被淘汰。
哈吉·塔格尔(Harj Taggar)
我并不建议他们彻底改变方向,但确实认为,那些正在开发 AI 编码代理或 AI 程序工程师的公司,可能需要对此多加思考。因为虽然 O1 在解决编程问题上表现不俗,但在我过去合作的某些团队中,他们已经对这类技术投入了大量精力,而 O1 在这方面并没有给他们带来质的飞跃。
陈嘉兴(Garry Tan)
我认为这可能是由于思维过程本质上的不透明性问题。实际上,这正是用户在 CodeGen 中面临的挑战。一旦引导过程走上某条道路,就很难再改变。你希望它在操作中能够询问你,比如“我是该这么做还是那么做?”目前,所有系统在这方面确实存在一些困难。
贾里德·弗里德曼(Jared Friedman)
正如戴安娜所提到的,每一个新模型的能力都有可能催生一批新的创业想法。以一年前为例,关于 AI 代理拨打电话的创业想法几乎无法实现。尽管许多公司尝试过,但都未能成功。然而,今年夏天之后,这项技术终于开始取得成效。从过去两批的趋势来看,任何与电话通话相关的领域现在都非常火热,因为模型终于变得有效。那么,随着这一新系列的 01 模型,哪些创业想法刚刚变得可行呢?
戴安娜·胡(Diana Hu)
根据 Sam 的论文,许多方面将在原子和物理世界中取得进展,因为它们在数学和物理领域表现出色。因此,我认为涉及机械工程、电气工程、化学工程和生物工程的初创公司已经取得了重大突破。从展示的演示中,我们可以看到这一点。
陈嘉兴(Garry Tan)
这真是令人兴奋。我是说,不仅仅是帮助人们提高效率,而是要做那些能为所有人带来实实在在好处的事情。可能这只是一个小小的努力。我认为,当前社会上对 AI 的恐惧在某种程度上是技术人员的责任,他们必须努力尽早迎来一个繁荣的时代。如果我们能做到这一点,那么繁荣将战胜恐惧。因此,我想这就是本周《The Light Cone》的全部内容了。我们下次再见。