在企业 AI 加速普及的浪潮中,“构建还是购买”正成为企业面临的核心抉择之一。而 Cohere 的联合创始人兼 CEO Aidan Gomez,则为这一问题带来了他的深刻见解和独特视角。在这场播客对话中,Aidan 不仅回顾了自己从实习生到 Transformer 论文共同作者的成长历程,还分享了他创办 Cohere 的初衷:通过 AI 驱动的语言模型为企业创造真正的价值。
Aidan 的职业旅程本身就如同一部小型的 AI 进化史。他在 2017 年实习期间,与 Transformer 团队共同撰写了划时代的论文《Attention is All You Need》,这项研究至今仍是大语言模型的技术基石。而在创业之路上,他带领 Cohere 专注企业服务,帮助客户在“构建还是购买”的选择中找到答案。
这次对话深入探讨了企业在采用 AI 工具时面临的现实困境,以及推动大模型技术发展的关键因素。Aidan 提出,模型改进速度趋于平缓背后的原因,以及大语言模型在预测任务上的局限性,这些都是企业和行业必须正视的问题。他的观点既冷静又富有洞察力,为企业如何规划 AI 战略提供了全新的视角。
更值得注意的是,Aidan 还从个人角度分享了他对通用人工智能(AGI)的理解与期待:它可能是什么样子,何时才能实现?他的回答不只是技术性的探讨,更是对未来 AI 发展的哲学式思考。
Aiden Gomez 的核心观点包括:
- Cohere 专注企业服务而非大众市场产品:Aidan 强调 Cohere 的核心使命是为企业提供 AI 驱动的语言模型和解决方案,帮助它们提升效率或改造产品,而不是开发直接与 ChatGPT 竞争的产品。
- 模型是基础,但产品化同样重要:Aidan 指出,AI 模型是 Cohere 业务的核心,但客户支持、可靠性和安全性等非技术性因素同样是成功的重要组成部分。
- “构建还是购买”的战略建议:对于企业在 AI 工具中的决策,Aidan 建议从最简单、成本最低的微调开始,逐步向更复杂的训练方案过渡,以满足性能需求,同时避免不必要的资源浪费。
- 大模型改进速度趋于平缓:Aidan 提到,随着模型的发展接近人类知识边界,改进的速度正在放缓,这需要更多领域专家的参与,同时增加了数据收集和处理的成本。
- 模型商品化的误解:Aidan 指出,当前市场上对模型商品化的认知存在偏差。他认为,虽然价格竞争激烈,但模型的真正价值在于其长期的技术优势,而非短期的免费策略或低价竞争。
- AGI 的实现与挑战:Aidan 认为 AGI 的实现是一个连续发展的过程,而非某一断点。他提到,构建通用智能的机器是可能的,但这需要面对许多技术、物理和经济上的阻力。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
模型是基础,但产品化同样重要
莎拉·郭(Sarah Guo)
大家好,欢迎收听 No Priors 播客。我们今天非常荣幸邀请到了 Cohere 的联合创始人兼首席执行官 Aiden Gomez。Cohere 专注于为企业提供 AI 驱动的语言模型和解决方案,到 2024 年公司的估值已超过 50 亿美元。Aiden 于 2019 年创立了 Cohere,在此之前,他曾在 Google Brain 实习期间参与撰写了一篇具有里程碑意义的论文《Attention is All You Need》。Aiden,非常感谢您今天的光临。
艾丹·戈麦斯(Aidan Gomez)
感谢您的邀请,我很高兴来到这里。
莎拉·郭(Sarah Guo)
我们可以先谈谈你的个人背景。你是如何从加拿大的森林中长大,成为世界上最重要的技术论文研究员的?
艾丹·戈麦斯(Aidan Gomez)
在我的成长过程中,运气和偶然性起了很大作用。然而,我的确很幸运,进入了一所由 Geoffrey Hinton 任教的学校。最近,Geoffrey 获得了图灵奖,被誉为深度学习之父。在多伦多大学,他是一个传奇,几乎所有学习计算机科学的学生都希望进入 AI 领域。从某种意义上说,我在 AI 领域的成长受到了他的深刻影响。
高中毕业后,我便置身于一个能够预见并构建未来的环境中。从那时起,许多美好的意外接踵而至。我意外获得了在 Google Brain 与 Lukasz Kaiser 共事的实习机会,后来才知道,这原本是为博士生准备的职位。因此,他们特意为即将离开的我举办了一个告别派对。Lukasz 当时问我,Aidan,你要回去了,你的博士还有几年?我回答道,我还要继续回去读大三。他惊讶地说,我们通常不为本科生提供实习机会。所以,我认为,正是因为一系列幸运的偶然,我才有幸进入了这个团队。
莎拉·郭(Sarah Guo)
在 Google 从事了一份既有趣又重要的工作之后,是什么促使你创办了 Cohere?
艾丹·戈麦斯(Aidan Gomez)
我曾游历许多地方,曾在 Mountain View 与 Lukasz、Noam 以及 Transformer 团队的其他成员共事。之后我回到多伦多大学,与 Hinton 和我的联合创始人 Nick 一起在多伦多展开研发活动。后来,我开始攻读博士学位并去往英国。随后,我前往柏林,与另一位 Transformer 论文的合著者 Jakob 一同工作。
莎拉·郭(Sarah Guo)
Cohere 的使命是什么?其模型和产品有哪些?能否为那些可能不太熟悉 Cohere 的人提供一个整体的简要介绍?
艾丹·戈麦斯(Aidan Gomez)
我们的使命是通过帮助其他组织采用这项技术,使他们的员工更高效,或改造其产品和服务,从而在世界上创造价值。因此,我们特别专注于企业。我们不会开发与 ChatGPT 竞争的产品。我们希望构建一个平台和一系列产品,使企业能够采用这项技术并从中获益。
莎拉·郭(Sarah Guo)
根据您的研究背景,您如何利用关键绩效指标来组织团队并做出投资决策?您认为 Cohere 的成功在多大程度上依赖核心模型,而非其他平台和市场推广的投入?
艾丹·戈麦斯(Aidan Gomez)
以上内容涵盖了所有相关点。模型是业务的基础,如果这个基础不能满足客户需求,那么一切努力都将徒劳。 因此,模型至关重要,它是公司的核心。然而,在商业领域,客户支持、可靠性和安全性同样重要。因此,我们在这两方面都投入了大量的精力。我们不仅仅是一家专注于建模的机构,也是一个推动市场发展的组织。
对于 Cohere 来说,产品正逐渐成为首要任务。因此,我们正在探索如何缩短客户实现价值的时间。在过去的 18 个月里,自从商业界开始关注这项技术以来,我们观察到客户如何使用我们的模型,研究他们想实现的目标,并注意到他们常犯的错误。这种观察非常有帮助,尽管有时候也令人沮丧,因为我们不断看到重复的错误。但我们认为,这为帮助企业避免这些错误提供了巨大机会,我们努力的方向就是从一开始就正确实施这些技术。
艾丹·戈麦斯(Aidan Gomez)
我认为所有语言模型对输入提示都非常敏感,数据的呈现方式对它们至关重要。每个模型都有其特有的属性,与某一模型互动的方式可能不适用于另一个模型。因此,在构建类似“检索-生成”(RAG)系统这种涉及外部数据库的系统时,如何将检索到的结果呈现给模型至关重要。
此外,数据在数据库中的实际存储方式也尤为重要,格式化的细节需要特别关注。正因为这些细节常常被忽视,人们往往会高估这些模型,以为它们如同人类一样思考,从而导致许多重复的失败。在尝试实施 RAG 系统时,有些人没有意识到实现过程中独特的细节,从而导致最终的失败。
到 2023 年,已经有许多这样的概念验证(POC)项目,许多人尝试了解这项技术并探索其基本原理。其中许多 POC 因缺乏经验和常见错误而告失败。要想实现成功,有两种方式:一是使模型更为健壮,对不同的数据呈现方式适应性更强;二是更有结构地管理用户接触的产品,而不是仅仅提供一个模型并希望用户自行探索使用方法。通过创建更明确的 API,明确定义如何使用模型,这些措施可以降低失败的几率,使这些系统对用户来说更加实用。
莎拉·郭(Sarah Guo)
人们正在尝试进行哪些工作?您能为我们介绍一些企业中的主要应用案例吗?
艾丹·戈麦斯(Aidan Gomez)
这个领域确实非常广泛,几乎涉及到各个方面。常见的应用包括问答系统。例如,如果你是一家制造公司,可能希望为工程师或生产线员工创建一个问答机器人,将所有不同工具的手册、常见错误以及零部件诊断手册整合在一起。这样,用户无需翻阅大量书籍即可通过聊天直接获取所需信息。
同样,对于普通企业员工,也可以构建问答机器人,将 IT 常见问题、HR 文件以及关于公司的各种信息整合到一个系统中。这样,组织可以设计一个集中的聊天界面,让员工轻松找到他们的问题答案。这些都是一些常见的应用。
此外,我们还支持一些特定功能。比如,对于医疗公司,他们可能拥有病患的纵向健康记录,这包括每次与医疗系统的互动,如药房访问、不同实验室的检测以及医生的就诊记录。这些记录可能跨越数十年,因此通常是一份极为庞大的医疗历史。病患通常在预约时会说明症状,比如膝盖疼痛,医生则需要查看以前的记录以判断是否曾出现类似症状。但由于预约前只有 15 分钟的准备时间,可能会遗漏两年前的相关信息。
我们的系统可以将完整的历史记录和当前就诊原因输入模型,生成一份相关报告给医生。这种方法显著加快了医生查看记录的速度,且常能发现长期历史数据中被忽视的信息。虽然医生在每次会诊前可能无法审阅 20 年的医疗历史,但模型能够在不到一秒的时间内完成这一任务。这些功能的应用,如总结和问答机器人,看似平常,却具有巨大的影响。
莎拉·郭(Sarah Guo)
我们注意到,有许多初创公司正致力于解决各种问题,如企业搜索、特定行业的技术支持,甚至是健康记录的研究、推理与检索。对于企业来说,使用这些由专业 AI 应用提供商提供的服务,和使用 AI 平台与模型 API 自行开发定制应用,这两者之间的最终状态,你怎么看待呢?虽然没有真正意义上的最终状态,但某种稳定的均衡状态将会是什么样子呢?
艾丹·戈麦斯(Aidan Gomez)
我认为这将是一种混合模式。你可以想象这像是一个金字塔,底部代表每个组织都需要的基础工具,比如 Copilot,每位员工手中都有一个通用的聊天机器人来回答他们的问题。随着你向金字塔顶部进阶,工具会变得更加专门化,针对公司自身或其运营、提供的具体领域和产品。 在这过程中,现成的解决方案越来越少,你需要自己开发。我们鼓励组织制定一个涵盖整个金字塔的战略规划。是的,你需要通用的标准工具,可能还要有一些行业特定的工具可以购买。
但是,如果你要开发,就不要重复那些可以买到的工具,而应该专注于开发独特的、有竞争优势的工具。我们与一家保险公司合作,该公司承保大型工业项目。后来我意识到自己对这个领域知之甚少。当他们收到一份请求报价(RFP),例如矿山或其他项目的保险时,其精算师需要进行大量研究,包括土地状况、潜在风险等。因为先回复者通常会赢得保险业务,所以速度至关重要。这些精算师多快能提出一个经过充分研究的建议书?
为此,我们与他们一起开发了一套类似研究助手的系统。通过检索-生成架构(RAG),我们整合了所有精算师用于研究的知识来源,并为他们提供了一个聊天机器人。这大大加快了他们对 RFP 的响应时间,从而赢得了更多合同,带来了更多业务增长。
对于我们开发的这类广泛技术和大型语言模型来说,它们就像是重要的处理单元。我未必能全面了解大语言模型的所有应用,因为它的范围非常广泛。真正的深刻见解或竞争优势,是通过倾听客户需求而获得的,这能帮助你在竞争中领先。这就是我们所做的许多工作的核心:成为客户的思想伙伴,帮助他们集思广益,设计对他们战略发展具有重要意义的项目和构想。
莎拉·郭(Sarah Guo)
我敢说这家公司能在竞争中获胜,因为大多数竞争对手无法如此迅速地采用和构建研究助手产品来帮助他们。您认为企业广泛采用的最大障碍是什么?
艾丹·戈麦斯(Aidan Gomez)
我认为信任是一个重要的问题,因此安全性变得尤为关键。 特别是在金融、医疗等受监管的行业中,数据通常不会被上传至云端,或者即便上传,也会通过虚拟私有云(VPC)进行严格保护。这些数据非常敏感,并受到严密的防护。Cohere 的独特优势在于,我们不依赖单一的生态系统,可以灵活进行本地部署,或者根据客户需求在 VPC 内外灵活调整。
我们有能力处理更多的数据,甚至是最敏感的数据,从而提供更有价值的服务。因此,我认为,安全性和隐私可能是最关键的方面。此外,专业知识的积累也是不可忽视的。例如,构建这些系统所需的专业技能对大多数人来说仍然是新兴事物。即使是经验最丰富的人也只有几年的经验。因此,这也是一个重要的方面。我觉得这实际上是一个时间问题。最终,开发者将逐渐熟悉并能够自如地运用这项技术进行开发。但我认为,这可能还需要两到三年时间才能成为主流。
莎拉·郭(Sarah Guo)
在技术的发展过程中,尤其是对于大多数技术,通常存在一个被称为“幻灭低谷”的阶段。一开始人们对某项技术感到非常兴奋,但后来却发现其应用难度超出预期或成本过高。那么,在人工智能领域,我们是否也看到了这种情况呢?
艾丹·戈麦斯(Aidan Gomez)
我相信我们确实可以看到一些应用。但老实说,核心技术仍在稳步提升,每隔几个月就会推出新的应用。因此,我并不认为我们正处于幻灭的低谷期。是的,我们确实处于一个非常早期的阶段。观察市场不难发现,这项技术已经开启了许多过去无法实现的新领域,无论是技术本身还是产品与系统的展现形式。
即使我们不再训练新的语言模型,就算所有的数据中心都停止运作,无法进一步改进大语言模型,只能利用现有技术,我们仍有半个十年的时间用于将这项技术融入经济,构建各种应用,比如保险投标响应机器人、医疗记录总结器等。
接下来的半个十年将用于深入挖掘和应用这些技术。因此,未来的工作依然繁重。我认为我们已经度过了质疑阶段。过去有人认为这项技术被过度炒作,质疑它的实际用途。但现在,它已经被一亿甚至数亿人使用,并在生产中获得了明确的价值。各个项目正在努力工作,以服务于世界。
莎拉·郭(Sarah Guo)
在将模型整合到现实世界应用的过程中,部分工作自然涉及到界面设计、变更管理以及用户对模型输出和安全措施的理解等问题。尤其是在考虑模型定制化时,您是否有任何框架可以提供给客户或用于内部使用,以帮助他们决定应该投资于哪个版本?我们有预训练、训练后调整、微调、检索等传统概念。特别是当我们可以获得更长的上下文信息时,您如何指导客户理解并实现模型的定制化?
艾丹·戈麦斯(Aidan Gomez)
具体应用场景的不同决定了策略的选择。例如,我们与日本最大的系统集成商富士通合作时,构建的是一个日语语言模型。在这种情况下,不进行预训练是不可行的,因为微调或后续训练无法有效地将日语整合到一个模型中。因此,必须从头进行训练。
另一方面,如果只是希望改变模型的语气或调整某些内容的格式,我认为可以通过微调实现,从最终状态进行调整即可。因此,这里存在一个渐进的过程。我们通常建议客户从成本最低、最简单的微调开始,然后逐步过渡到后续训练,例如监督微调(SFT)和人类反馈强化学习(RLHF)。
如果生产系统对性能的要求越来越高,可能就需要考虑调整预训练。在理想情况下,只需修改预训练阶段的最后 10%或 20%即可,而不必调整全部。这基本上就是我们的观点,从最简单、最经济的方法逐步走向更复杂但性能最优的路径。
莎拉·郭(Sarah Guo)
从最便宜的选项开始进行优化是合理的。然而,我认为任何企业客户愿意投资于预训练的观点是有争议的。我相信,一些研究机构的领导者可能会认为,没有人应该进入这个领域。考虑到计算规模、数据整理的工作量以及所需的人才,以任何有竞争力的方式进行预训练都是不合理的。你对此有何看法?
艾丹·戈麦斯(Aidan Gomez)
如果你是一家大型企业,拥有海量数据,例如数千亿字节,那么预训练将是一个可以利用的重要手段。对于大多数中小型企业,尤其是初创公司来说,预训练可能没有太大意义,也不值得进行。然而,对于大型企业,这确实是一个需要认真考虑的问题。
关键在于选择适当规模的预训练。 你不必从零开始进行一次耗资 5000 万美元的训练,但可以进行一次耗资 500 万美元的训练,这正是我们看到成功案例的原因。这是一项持续进行的预训练工作。因此,这也是我们提供的服务之一。当然,我们不会立即采取行动。假如你不愿意,也不需要进行大规模投入。而且,企业的采购周期或技术采纳周期通常比较缓慢,因此有时间进行调整。总的来说,这完全取决于客户的决定。而认为没有人应该进行预训练的观点是不够全面的。
莎拉·郭(Sarah Guo)
除了像 AGI Labs 这样专门的组织,其他人都不应该进行预训练。
艾丹·戈麦斯(Aidan Gomez)
基于经验,这是错误的。
专注于以更低的成本实现前沿技术
莎拉·郭(Sarah Guo)
或许这是一个很好的切入点,我们可以详细谈谈技术领域的现状,以及这对于 Cohere 的意义。Cohere 内部设定了怎样的标准?你提到过模型是基础。我了解你还提到去年的模型已经丧失了竞争力。在资本支出竞争激烈和开源模型兴起的背景下,你如何应对这些挑战?
艾丹·戈麦斯(Aidan Gomez)
我认为,要建立一个实用的模型,需要达到最低投资门槛。随着技术成本的下降,训练模型的计算成本也随之降低。某些方面的数据源变得更便宜,但其他方面则未必。使用合成数据显著降低了成本,但获取专家数据却变得更加困难和昂贵。
我们发现,现在只需 1000 万到 2000 万美元,就可以构建一个在企业看重的各个方面与 GPT-4 相媲美的模型,这远比当初开发 GPT-4 所需的资金少得多。因此,如果你愿意等待六个月到一年,就能以前沿实验室开发该技术成本的一小部分实现同样的结果。
这也是 Cohere 策略的关键部分:我们无需首先开发最前沿的技术,而是专注于以更低的成本实现它,并聚焦于客户最关心的部分。 我们将关注客户真正依赖的功能。
同时,与普通创业公司相比,我们仍需承担每年数亿美元的超级计算机费用。虽然资本需求量大,但这并不意味着低效。显然,基于我们正在构建的产品,我们有能力建立一个非常有利可图的业务。因此,我们的战略并不是争当第一,每年投入几亿、几十亿美元去追求最前沿,而是推迟六个月,为有需求的企业提供实用且价格合理的产品。
莎拉·郭(Sarah Guo)
如果已经有越来越多的开源选项,为什么还要在超级计算机和自我训练上投入资源呢?
艾丹·戈麦斯(Aidan Gomez)
事实上,情况并不是完全如此。
艾丹·戈麦斯(Aidan Gomez)
对于 Llama,你将获得一个基础模型。当其完成训练且梯度不再更新时,你将收到后续的预训练模型。使用这些模型进行微调不如自己构建模型高效,并且可控因素也少得多。这是因为,如果你能够访问并更改用于训练的数据,将会具备更大的灵活性。因此,我们认为,通过垂直整合和自主构建这些模型,可以为客户提供显著更多的优势。
莎拉·郭(Sarah Guo)
或许在预测未来时,我们可以谈到你提到的一些问题。关于规模损失,目前我们处于哪个阶段?在未来几年中,你预计会有哪些能力的提升?
艾丹·戈麦斯(Aidan Gomez)
我们已经走到了相当远的阶段,可以说正开始进入一个相对稳定的时期。 显然,我们已经超越了仅通过与模型互动来评估其智能水平的阶段。依靠直觉的测试方法已不再有效,因此现在需要让物理、数学、化学、生物等特定领域的专家进行评估。
因为普通用户可能无法辨别这些结果之间的专业差异。尽管还有许多工作要做,但这些成果将在非常专业化的领域中显现,并对更多研究领域产生影响。对于企业以及一般希望实现自动化或构建工具的任务,这项技术的表现已经相当出色,或者说已经非常接近目标,只需稍作定制即可。因此,这就是我们目前所处的阶段。
一个新的突破是推理能力的提升,它能够解决新类型的问题,改变了经济模式。 以往,在线推理能力是缺失的。这些模型以前不具备内在的思维过程,只能回答问题,而无法进行推理思考,无法犯错、发现错误、修正并重试。现在,推理模型已经上线。OpenAI 是首个将这类推理模型投入使用的公司,但 Cohere 也已经在这一领域努力了一年。我认为这一技术类别非常有趣,能够解决一类新问题,同时改变经济模型。
以前,如果客户对我说,嗯,Aiden,我希望你的模型在 X 方面表现更好,或者我想要一个更智能的模型,我会说,好吧,给我们 6 到 12 个月的时间,我们需要开始新的训练过程,训练更长时间,或者训练更大的模型。当时,这是我们提升产品性能的唯一手段。
如今,有了第二个手段:你可以要求客户支付更多费用,以投入双倍的计算资源来进行推理,从而获得一个更智能的模型。这样产品体验将会大大提升。你想要更智能的模型?今天就能实现,只需支付相应费用。客户有了这种选择,无需再等六个月。
对于模型构建者来说,我不再需要将超级计算机的规模翻倍来达到必要的智能水平,只需增加客户支付的推理时间即可。因此,我认为这是一个非常有趣的结构变化,改变了我们进入市场的方式,以及我们能够构建和提供给客户的产品。
莎拉·郭(Sarah Guo)
我同意。目前的生态系统可能低估了这样一个事实:对许多类型的客户而言,从资本支出(CapEx)模式转向按需消费模式将更具吸引力。此外,这两者并非对立选择。正如你所提到的,当人们不再需要预先为一次训练付费并漫长等待时,他们在解决问题上的投入会显著增加。
艾丹·戈麦斯(Aidan Gomez)
的确,这方面还没有得到充分的关注。人们尚未真正评估计算推理时间对智能的影响。即使是在芯片层面,也会带来许多后果。例如,您希望制造怎样的芯片,数据中心的建设应优先考虑哪些因素。如果我们采用一种新方法——即计算推理时间,就不再需要那种高密度互联的超级计算机,只需将节点分布开来即可。这样,可以在本地进行更多计算,而不必过度依赖分布式处理。我认为,这将对整个产业链的上下游产生重大影响。同时,这也代表了关于这些模型功能及其实现方式的新范式。
莎拉·郭(Sarah Guo)
你之前提到了这个话题,因为通常大家不会花太多时间去思考什么是推理,对吗?能否为大家提供一些直观的解释呢?比如,推理能帮助我们更好地解决哪些类型的问题?
艾丹·戈麦斯(Aidan Gomez)
我认为任何形式的多步骤问题,例如多项式解题,都需要通过分解步骤来解决。但我们目前的模型大多是通过记住步骤来解决问题。实际上,这应该是一个多步骤的过程,也正是人类处理问题的方式。我们不会简单地面对一个多项式,然后一下子就能解出来。当然,有些问题可能我们已经在脑海里记住了解法。但总体来说,需要把问题分解成较小的部分来解决,然后再将这些部分组合成一个完整的解决方案。
长期以来,我们一直缺乏这种能力。尽管我们有类似“推理链条”的方法来实现这一目标,但这更多是对模型的改造。我们只是训练模型记住输入和输出之间的对应关系,然后通过一些技巧来模仿推理行为。我认为现在我们正从头开始,未来构建和交付的下一代模型会从一开始就具备这种推理能力。
一开始这种能力的欠缺其实并不意外,因为我们的模型一直是通过互联网数据进行训练,而互联网数据就像是一系列文档,仅仅展示推理过程的输出,推理本身是隐藏的。就像一个人写文章,在经过数周的思考和修改后发布的成品,读者只能看到最终成果,其他一切都是隐含的、不可见的。
因此,可以理解为什么第一代语言模型缺乏这种内心的思考。但现在,我们正通过使用人类数据和合成数据来明确收集人们的思维过程。我们让参与者说出并记录他们的想法,用这些数据训练模型,模拟问题的解决过程。对此,我感到非常兴奋。尽管这种方法现在效率低下且相当脆弱,就像早期版本的语言模型,但在未来两到三年内,这种方法将变得非常稳健,并能够解决全新的问题类型。
莎拉·郭(Sarah Guo)
导致放缓的基本驱动因素是什么?例如,您提到规模增长曲线趋于平稳。是由于处理越来越专业化的数据及其收集成本上升吗?或者是因为您提到的推理过程,比仅从互联网上获取数据要复杂且昂贵?还是因为评估和解决越来越复杂问题的难度提高?亦或是整体计算成本的增加?您认为哪种现象导致了这种平稳趋势?
艾丹·戈麦斯(Aidan Gomez)
在创作油画时,画家通常会先在画布上涂上一层底色,然后勾勒出山峦和树木的轮廓。随着细节的增多,画家的笔触也愈发精细。在完成这些步骤之前,画家需要进行多次细致的描绘,而不是简单地涂抹颜料来草草了事。
同样,我们可以将这种过程类比于语言模型的训练。对于一些常见且简单的任务,模型可以很快完成,但当深入到科学和数学等更具体、复杂的领域时,就面临提升能力的挑战。在某些情况下,我们通过使用合成数据解决了这个问题。因为代码和数学领域的问题答案是可验证的,因此可以生成大量合成数据,并对其正确性进行确认,然后用于训练模型。
然而,在那些需要真实世界测试和知识的领域,如生物学和化学,创造这类数据的难度更大。在这种情况下,我们需要向在该领域拥有数十年经验的专家学习。然而,专家和数据终究是有限的,我们将到达人类现有知识的前沿,在那些细节上作出补充愈发困难。我认为这是一个根本性的问题,没有捷径可走。未来,语言模型可能需要自主进行实验,以填补它们感兴趣的知识空白。不过,这一天还很遥远,要实现大规模应用将是一个艰难的过程,可能需要耗费数年之功。
尽管如此,我们终究能实现这一目标。对于我当前在 Cohere 关心的事项,我认为现有技术已经可以投入生产并立即应用。我们的主要目标是将技术推向市场,确保经济能够快速采用并整合这项技术,以提升生产力。尽管技术进展为何变慢是一个有趣的问题,但原因显而易见:模型变得越来越强大,以至于达到了人类知识的边界,而这正是它们汲取能力的源泉。
莎拉·郭(Sarah Guo)
您非常专注于我们目前的能力,即使进展缓慢,也会继续推动其在生产中的应用。我想我大概知道这个问题的答案,不过,您或 Cohere 在多大程度上考虑到通用人工智能(AGI)的发展和实现?这对您来说重要吗?
艾丹·戈麦斯(Aidan Gomez)
通用人工智能(AGI)在不同的人眼中意义各异。我坚信我们将能创造出具有通用智能的机器,这似乎是一件必然会发生的事情。然而,AGI 的概念已经变得模糊不清。
艾丹·戈麦斯(Aidan Gomez)
我们现在已经达到了这一阶段。这不是一个二选一的选择,也不是一个离散的过程,而是一个连续不断的进程。我们在这条道路上已经取得了长足的进展。
莎拉·郭(Sarah Guo)
在其他行业领域,有一种观点认为,即使函数是连续的,也可以人为地设置一个断点。例如,有一种智能能够取代所有受过良好教育的成年数字角色专业人士。而您认为,并没有发生真正重要的断点。
艾丹·戈麦斯(Aidan Gomez)
这有点像一个客观的清单。当你完成所有这些检查项时,总会发现一些例外情况。比如,有人类会做出一些随机的事情,而机器无法超越。我认为这是一个持续发展的过程,我们已经取得了长足的进展。但我不同意超智能的观点,也不认为自我改进会导致像《终结者》那样消灭我们的情形。
艾丹·戈麦斯(Aidan Gomez)
我认为我们将是那些创造繁荣的人,而不是依靠某种神灵来实现这一目标。我们应该充分利用正在开发的技术来实现这些目标,我们无需依赖外部力量,完全可以自己做到。如果你指的是一种非常实用且具有广泛能力的技术,这种技术可以完成许多人类能够完成的任务,并可灵活应用于多个领域,那么我们就致力于构建人工通用智能(AGI)。但如果你问我们是否要创造一个“神”,那不会。
莎拉·郭(Sarah Guo)
您认为导致这种观点差异的原因是什么?
艾丹·戈麦斯(Aidan Gomez)
我认为我更关注技术在实际应用中遇到的挑战,比如出错的地方、运行缓慢的地方,以及开始看到其发展受限或速度减慢的地方。可能其他人比较乐观,认为只要看到增长曲线,就觉得这种趋势会无限期地持续下去,但我不这么认为。
我觉得这当中会出现一些阻力点——确实会有些阻力。尽管理论上,比如神经网络是一个通用逼近器,能够学习任何东西,但要达到通用逼近的程度,你需要构建一个规模如同宇宙大小的神经网络。有人推测存在某些基本的物理障碍,而我认为这将限制这项技术在实际应用中的实现方式。
莎拉·郭(Sarah Guo)
是否存在一些领域,你认为当前的大语言模型难以胜任呢?例如,我们能否通过序列到序列模型来准确预测物理模拟结果?
艾丹·戈麦斯(Aidan Gomez)
我认为可能是这样。物理学可以被视作一系列状态及其之间的转移概率。因此,使用序列建模来模拟它可能相当合适。但是否有些领域并不适合这种方法呢?我相信,对于某些事物,必然存在更好、更高效的模型。如果深入研究某个特定领域,可以利用其特有的结构,减少在 Transformer 或类似架构中不必要的泛化,从而获得更高效的模型。当你深入研究时,这一点是显而易见的。
莎拉·郭(Sarah Guo)
听起来你并不认为这是一个根本性的问题,换句话说,你觉得这并不可行。
艾丹·戈麦斯(Aidan Gomez)
世界上存在着无法化简的不确定性。确实,有些事情是你无法知道的。例如,构建一个玩具模型并不能帮助你了解那些真正随机或无法观测的事物。因此,在我们学会如何观察这些事情之前,它们将无法被有效建模。我认为 Transformer 这类模型比人们想象的要强大得多。这是一种非常通用的架构,许多事情都可以被描述为一个序列。
这些模型事实上可以被视为序列模型。如果你能将其描述为一个序列,Transformer 就能够很好地捕捉其中的任何规律。然而,我相信一定存在一些我没有想到的例子,在这些情况下,序列建模非常低效。虽然你可以用序列来处理问题,并可以将图形描述为序列,但这往往是非理想的建模方法,从不同角度建模会显著降低计算成本。
莎拉·郭(Sarah Guo)
好的,这是最后一个问题。你之前提到延长的计算推理时间虽然受到关注,但市场并没有真正体现其重大影响。除此之外,你认为还有哪些因素是市场尚未反映出来的?例如,Cohere 对这些因素的看法是什么,或者你们正在关注哪些方面?
艾丹·戈麦斯(Aidan Gomez)
我认为,认为模型正在商品化的看法是不准确的。在我看来,当前存在的其实是价格竞争。 于是,我们会看到有人免费或以亏本、零利润的方式提供这些模型。因此,很多人误以为价格下降代表着模型的商品化。但实际上,我们正处在整个技术结构重建的初期,这个过程可能会持续 10 到 15 年。
有点像重新铺设地球上的每一条道路,而只有四五家公司掌握混凝土的制造技术。如今,或许一些公司愿意免费提供混凝土。然而,随着时间推移,具备这种能力的公司数量会非常有限,而我们面临巨大的任务和增长压力,必须展现投资回报。在这一不稳定的现状下,亏本经营或免费赠送昂贵技术无法持久。因此,市场的增长压力将推动局势朝着特定方向发展。实际上,Haiku 的价格在两周前已经翻了四倍。
莎拉·郭(Sarah Guo)
非常高兴能与你合作,Aidan。感谢你的支持与配合,共同完成了这项任务。
艾丹·戈麦斯(Aidan Gomez)
很高兴能帮上忙。我觉得这非常有趣,并且很高兴见到您。