本次访谈的嘉宾是 Glean 的联合创始人兼首席执行官 Arvind Jain,访谈探讨了 AI 助手如何革新企业工作环境。访谈重点关注企业内部信息搜索的复杂性,强调了整合各种企业系统所需的数据治理和技术架构。Glean 起初定位为企业搜索公司,如今已演变为一个通用工作助手。自成立以来,Glean 一直作为 AI 辅助工具,为企业提供高效的数据检索服务。通过 SaaS 模式,Glean 克服了企业信息分散的问题,实现了对数据的深度集成。
Arvind Jain 的核心观点包括:
- Glean 的企业定位:Glean 被视作企业内部的 Google 或 ChatGPT,旨在通过 AI 技术,利用公司内部知识回答员工问题,无论知识存储在何处。
- 技术挑战与解决方案:集成、权限管理、排序处理和解析是 AI 在企业数据上高效运作的关键技术挑战。Glean 通过深度集成企业系统、治理层的权限管理、知识图谱构建以及利用大语言模型(LLM)来解决这些问题。
- AI 在企业中的应用:Glean 作为一个 AI 平台,允许企业内部构建 AI 应用程序,通过 RAG(检索增强生成)架构,结合企业私密数据与语言模型的能力。
- 搜索技术的重要性:搜索技术是 Glean 的核心,它依赖于深度集成和优秀的搜索排序系统,以确保用户能够找到最相关的文档和信息。
- 未来 AI 的发展方向:预计在未来五年内,大部分知识工作者的工作将由 AI 助手完成,Glean 旨在成为这样的 AI 助手,主动提供帮助并承担工作。
- 创业与 AI 的关系:创业的核心在于解决商业问题,AI 是工具之一。Glean 的核心竞争力在于其搜索技术和对企业数据的深度理解,而不是自行训练大型模型。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
Glean 是企业内部的 Google 或 ChatGPT
桑娅·黄(Sonya Huang)
今天,我们非常高兴地邀请到 Glean 的联合创始人兼首席执行官 Arvind Jain 参与我们的访谈。在职业生涯初期,Arvind 在 Google 搜索的构建中扮演了关键角色,同时,他还是 Rubrik 的联合创始人兼首席技术官。Glean 起初是一家企业搜索公司,现在已经发展成为一款通用的工作助手。在将 AI 引入企业环境的过程中,集成、权限管理、排序处理、解析,以及其他技术挑战,都是 AI 在公司数据上高效运作的难点。
今天,Arvind 将与我们分享 Glean 如何在其他公司未能解决的问题上取得成功,以及作为率先成功应用 AI 技术的公司之一所积累的经验。Arvind,非常感谢你能接受我们的采访。我们有许多关于 RAG、代理和知识图谱的问题想请教你。但在此之前,你能否简要介绍一下 Glean 是什么以及你们当前正在开发的内容?
阿尔温德·贾因(Arvind Jain)
首先,感谢您的邀请。可以将 Glean 看作企业内部的 Google 或 ChatGPT。 员工可以在这里提出问题,Glean 通过利用公司内部的知识来回答这些问题,无论这些知识存储在哪里,都会为用户呈现。这就是 Glean 的作用。此外,Glean 还是一个 AI 平台,如果您想在企业内部构建 AI 应用程序,可以利用 Glean RAG 平台快速实现。
桑娅·黄(Sonya Huang)
非常好。既然你将其比作企业版的 Google,我想这正是每位 CIO 所追求的圣杯。我们已经尝试了二十年都未能成功构建出这样的系统。你曾是 Google 的明星搜索工程师,但即便是 Google,在这个领域也未能取得突破。也许你可以谈谈,为什么这是一个如此困难的问题,以及你是如何解决这个问题的呢?
阿尔温德·贾因(Arvind Jain)
搜索本身极具挑战性,因为在某种程度上,它就像是一种“魔力”。你可以提出任何问题,期待系统给出正确的答案,因此人们对搜索的期望往往很高。这在企业内部尤为棘手,因为信息分散在企业的各个系统中。要获取这些信息本身已经很困难,更具挑战性的是如何判断哪些信息是有用的,哪些已经过时。因此,构建这样的系统面临许多挑战。
可以说,过去的尝试鲜有成功,因为问题过于复杂。它需要大量的研发和投资,对初创企业尤为不利。而在 SaaS(软件即服务)模式出现之前,构建这样的产品几乎是不可能的,因为要接入企业的所有数据,需要花费一整年与企业合作将数据导入搜索系统,然后才能解决最重要的问题,即如何使这些信息能够被有效搜索。
帕特·格雷迪(Pat Grady)
Arvind,我认为 Glean 是展示企业 AI 应用的优秀范例之一。在这次对话中,我们将重点讨论 Glean 的 AI 应用。然而,我了解到你们的技术堆栈包含多层次,包括基础设施、连接器、治理引擎和知识图谱。您能否简要介绍一下在实现 AI 功能之前所需构建的所有基础设施?
阿尔温德·贾因(Arvind Jain)
正如你所说,搜索的起点在于将数据与查询所需的知识整合。 因此,我们技术栈的首要任务是实现与大多数常用企业系统的深度集成。像 Salesforce、Confluence、Jira、Google Drive、SharePoint、ServiceNow 等系统是企业数据的存储地,必须进行集中整合。这就是我们技术栈中至关重要的一个部分。
但是,在处理企业数据时,我们必须意识到这些信息与在互联网上使用 Google 搜索的内容不同,因为企业信息往往具有私密性。例如,你在 Google Drive 上创建的文档可能对你是私密的,或只与你选择的几个人共享。因此,我们不能简单地构建一个搜索引擎,将全部公司知识放入其中并向所有人开放访问。必须了解每个内容的权限。因此,搜索时系统需要识别用户身份,仅提取他们有权访问的信息。这就是我们的治理层,专注于理解各系统中的权限管理。
第三部分是很多产品过去失败的地方:搜索不仅仅是把大量文档放入索引,然后在有人提问时通过语义或关键词匹配相关内容。需要了解提问者的背景。例如,我可能询问入职指南,因为我是新员工。不过具体提供哪份入职指南,要看我是市场部还是工程部的员工。理解员工、知识及其关系,是确保在企业中有效开展搜索或问答服务的关键步骤。
这就是我们的工作,我们构建了一个深入的知识图谱,了解所有员工及其在公司中的角色,审查所有文档,识别哪些文档适合哪个部门使用,以及哪些文档实际上广受欢迎。理解某个人员与某一文档之间的关系,是我们用来决定查询时最相关知识的核心基础。因此,我们完成了这些任务。有趣的是,你提到在生成式 AI 变得重要之前的情况。对我们来说,AI 从一开始就是核心搜索技术的一部分。自 2019 年以来,我们一直在使用大语言模型(LLM),至少是基于 BERT 的语言模型。
桑娅·黄(Sonya Huang)
掩码语言模型(MLM,Masked Language Models)
阿尔温德·贾因(Arvind Jain)
确实,现在我们是这样称呼它们的。不过在搜索引擎社区中,我们早就将它们称为语言模型。语言模型一开始就是核心搜索功能的一部分,因为它能够帮助我们在语义层面理解内容。我们很早就将这一概念融入核心搜索功能中,从而在理解用户问题时具备这种能力。不仅仅依赖用户的具体关键词,而是能够理解问题背后的意义,并将其与相关文档正确匹配。然而,这只是使用大语言模型(LLM)之前所需准备工作的基础。
桑娅·黄(Sonya Huang)
你能谈谈关于搜索引擎排名的问题吗?我觉得谷歌之所以能够如此高效地运作,部分原因在于我总能在页面顶部找到我想要的答案。在公共互联网上,谷歌拥有如此多的网络数据和链接,这使得其排名效果显著。对于 Glean,这种有效的排名机制起到了多大的作用呢?你们是如何实现的呢?
阿尔温德·贾因(Arvind Jain)
这个产品的核心在于,我们非常重视并投入大量精力来建立一个卓越的搜索排序系统。我举几个例子来说明我们如何确定哪份文档最适合回答某个问题。
设想一份公司内部人员经常查阅的文档,这说明它包含重要信息。人们愿意花时间查看它。如果有一份在过去一两周内撰写的文档引起了一些互动,这同样表明它仍然相关且受到关注。
再考虑一份特定文档,虽然在整个公司层面不太受欢迎,却在某个团队中被大量使用,这意味着该文档对那群特定的人非常重要。
最后一个例子,假设有人提出了一个问题,但没有使用搜索功能,而是在 Slack 上询问,随后有人用文档链接回应并得到提问者的认可。这种互动表明该文档非常适合回答用户的问题。如果记住这些关系,当其他人提出类似问题时,这种信息会非常有帮助。
这些都是一些信号。我们必须不断寻找这些信号。与互联网不同,企业环境中的信号收集需要额外的努力。Google 可以监测其平台内的所有活动,因为它是信息获取的主要入口。但在企业环境中,并非所有行为都是通过搜索产生的。你需要研究与知识传播相关的各种系统中的活动,比如通信系统、文档管理系统,通过观察员工行为来获取知识。因为最终,你是通过分析企业内部的行为模式来获知信息的。收集的信息越丰富,排序系统就会越精确。
RAG 在企业搜索中的应用
桑娅·黄(Sonya Huang)
我们能讨论一下 RAG 吗?正如 Pat 所说,你在合适的时间和地点出现。你已经将所有困难的部分整合在一起,所以当大语言模型(LLM)变得非常强大时,你已经准备好了所有基础设施。我认为你是能让这些大语言模型在企业内容中真正发挥作用的专家之一。你能否以简单易懂的方式解释一下什么是 RAG?它成功运作的关键是什么?有哪些不常提到的因素?此外,RAG 能实现哪些功能是普通聊天界面无法做到的?
阿尔温德·贾因(Arvind Jain)
GPT、Gemini 和 Claude 等模型是基于全球公共知识和数据进行训练的。如果您向 ChatGPT 询问个人公司内部的信息,比如“我的带薪休假政策最多能休多少天?”,由于这些模型的训练数据不包含您公司私密信息,它无法回答。要让 AI 利用这些私密企业数据,就需要基于 RAG(检索增强生成)的 AI 应用架构。
其工作原理是,您提出问题,然后使用搜索引擎或检索引擎查找可能相关并能回答您问题的文件。接着,您可以让模型处理这些文件或内容片段。您告诉模型,例如 GPT,“这是我的问题,我有这些公司内部的相关信息来回答。” 这样,模型就能利用这些知识来回答您的问题。
目前,大多数企业级 AI 应用都是这样构建的。将您的私密企业数据与这些语言模型的能力相结合的唯一方法,基本上是在中间结合一个搜索引擎。在 Glean,我们在过去五年中已经建立了一个覆盖您所有企业内容的搜索引擎。它使我们成为最佳的 RAG 系统之一,能够提供自主开发的终端用户应用,即使用这套 RAG 架构的 Glean Assistant,并帮助公司构建更多应用。
尽管这种架构逐渐成为经典的 AI 应用构建方法,但它仍然充满挑战。构建一个优秀的 RAG AI 应用实属不易。尽管模型非常强大,技术仍在发展中,因此容易生成错误的信息。现在,还需要在这种应用架构中加入复杂的技术层。
想象一下,您在连接两种尚未完美的事物。因此,基于 RAG 的 AI 应用有时性能欠佳,因为检索阶段可能失败——要么找不到正确的信息片段,要么获取的是过时的信息,然后交给大语言模型(LLM)处理,自然就难以取得理想的效果。尽管这是目前整合知识的唯一方法,但确实带来了一些挑战。
帕特·格雷迪(Pat Grady)
请让我帮您解答这个问题。首先,我们回顾一下这次对话的初始部分:其一是关于企业搜索,其二是涉及应用平台。企业搜索与 RAG(检索增强型生成)之间如何关联?是其中一个是另一个的超集或子集,还是它们相似但独立,亦或完全相同?企业搜索与 RAG,这些概念之间有什么联系?
阿尔温德·贾因(Arvind Jain)
我认为搜索和拖拽在某种程度上具有相似性。核心技术在于将所有知识,尤其是企业知识,整合到一个搜索系统中。这样一来,你可以提出问题,而系统能提供相关的知识或答案。这就是核心技术所在。目前,你可以将这项技术作为独立产品来使用。
例如,在 Glean 的搜索产品中,人们进入系统并提出问题,我们能够提供与问题相关的文档来帮助解决问题。或者,你可以在一个综合的 AI 应用中使用它,作为一个 API 层,其中搜索系统只是该 AI 应用架构的一个模块。我认为在这方面,它们是相似的。但是,行业现状是,大多数企业中的 RAG(检索增强生成)应用实际上使用的是较简单的检索系统,通常是基于向量搜索的系统,并没有充分利用企业的背景知识。
我认为这就是关键区别。对于我们而言,我们一直在思考如何构建一个独立的搜索系统,使其足够优秀,可以作为独立产品提供给用户。这是验证搜索质量的一项真正挑战。在 RAG 应用中使用这种方法,会创造出更好的 AI 体验。
桑娅·黄(Sonya Huang)
因此,可以说您的工作是确保搜索结果排名对人类有益。事实表明,当排名对人类有益时,机器也会受益,这是获得最佳结果的关键。这也正是您所构建的与那些为小型检索系统设计数据流程的人不同之处。
阿尔温德·贾因(Arvind Jain)
我认为,要在几周内独立构建这样的系统确实非常困难。虽然现在可能在一两小时内就能制作出一个出色的 AI 演示,但真正构建一个稳健、可靠且能为企业创造价值的系统,却是一个巨大的挑战。
帕特·格雷迪(Pat Grady)
我们已经讨论过你们的产品构建过程,并了解到它非常有效。我们注意到公司每年的显著增长。这个产品我们内部也在使用,许多用户也给予了高度评价。真正衡量成功的标准在于产品如何改变客户的生活。因此,我想了解,当你观察客户及其日常工作方式时,使用 Glean 前后有哪些变化?这对人们的工作有哪些帮助?
阿尔温德·贾因(Arvind Jain)
Glean 实际上是一款被广泛使用的产品,我们经常对用户的使用方式感到惊讶。让我给你一些例子。在工程团队中,他们发现 Glean 在故障排除时非常实用。 每当遇到障碍或程序故障时,Glean 就成为一个重要的工具。你可以在这里进行调试,通常你并不是第一个遇到该问题的人,可能之前已经有人解决了类似的问题。因此,获取他人解决问题的背景资料可以帮助你自己解决问题。这是工程中的一个重要应用。
对于支持类职位,他们的日常工作是解决和回答问题。我认为,像 Glean 这样的工具已实质性地改变了他们的工作方式。现在,当客户问题出现时,Glean 已经提供了答案,因此他们的工作变为验证 AI 提供的答案是否正确,然后再分享给用户。
一些团队的行为确实发生了变化,例如销售人员,他们使用 Glean 来准备会议。在即将到来的客户通话之前,他们可以轻松使用 Glean 准备会议。Glean 可以提供客户的全面数据视图,例如上次会议的情况和未完成的商机。这确实帮助他们更好地准备和进行会议,因为客户总会提出许多问题。销售人员在会议中更加自信,因为如果有人提出意外问题,他们可以直接在会议中咨询 Glean,快速得到答案并作出回应。
事实上,在我们公司中,我们不允许销售人员在通话中带销售工程师;他们必须自己回答问题。这就是我们在最初几次通话中推动的行为改变。但总体而言,用例是无限的。公司内的每个人普遍会使用的一个功能是帮助找到能协助你的人。Glean 使人们更容易连接到合适的主题专家,以获得所需的帮助。这是我们发现每个员工都会大量使用的一个功能。
桑娅·黄(Sonya Huang)
你们是否有一个关注的北极星指标?这些都是关于客户影响的精彩故事。那么,你们是如何客观地进行自我基准评测的呢?
阿尔温德·贾因(Arvind Jain)
我们的关键指标是人们每天提出的问题数量,以及这些问题是否能够成功得到解答,我们确保为他们正确地回答这些问题。
桑娅·黄(Sonya Huang)
这是否类似于 Google 的搜索满意度指标呢?这些数据你能分享吗,还是说你更倾向于保密?
阿尔温德·贾因(Arvind Jain)
我们有一个技术指标,虽然我不太确定它的重要性,但我们努力保持这一数字在 80%。我认为这可以作为一个标准,实际上有 80%的用户会话成功获取了他们需要的内容。
帕特·格雷迪(Pat Grady)
那么,你如何衡量这样的成功?是通过他们的点赞数来明确衡量,还是通过观察他们是否根据你提供的结果采取实际行动?你究竟是如何具体衡量成功的呢?
阿尔温德·贾因(Arvind Jain)
实际上,这是一种隐性反馈。我们会追踪用户行为,例如在搜索时,你提出一个问题并点击前几个结果之一,然后在该页面停留很长时间。这表明你对结果感到满意,因为你没有迅速返回、再次询问或重新搜索。通过这种方式,我们可以判断某次搜索是否成功。
帕特·格雷迪(Pat Grady)
目前有哪些尚未在产品中实现,但你认为可以帮助人们取得更大成功的主要功能?
阿尔温德·贾因(Arvind Jain)
在我们最初讨论这个想法时,比如在早期阶段,开发出像 ChatGPT 或 Glean 这样的产品感觉就像在施展魔法。大家对此的预期是无限的,因为它不仅需要回答用户各种问题,还要执行他们要求的任何任务。对我们来说,最大的挑战并非缺乏某项功能,而是确保我们的核心功能成功运行——也就是准确回答用户的问题,并随着时间推移,能够处理越来越复杂的问题。
因此,我们感觉,无论是我们自己还是其他现有的从业者,距离实现终极愿景还有很长的路要走。我们希望 Glean 能成为一个利用公司知识解答任何问题的 AI 助手,最终甚至能够承担一半的工作。就目前来看,我们大概只实现了目标的 2%,因此 AI 的发展仍处于非常早期阶段,离实现真正的影响还有很长的路要走。
桑娅·黄(Sonya Huang)
所以,到目前为止,我们才刚刚完成目标的 2%。我想询问一下关于代理推理的问题。在红杉资本的合伙人中,这一直是一个重要议题。作为创始人,我知道这对你来说也很重要。
在编程领域,有一个让我印象深刻的结果:通过使用 RAG(检索增强生成技术),这些编程代理的任务完成率可以达到 3%到 4%。然而,如果赋予它们更多的代理推理能力,这一完成率能提高到 14%或 15%。就像是成倍增长。这些提升可以通过简单地反思你的工作,或者使用最佳实践等技术实现。我很想知道你们是如何考虑将更多的代理推理融入产品中,以及其他能够帮助我们从目前的 2%进展到你们最终愿景的方法。
阿尔温德·贾因(Arvind Jain)
我想澄清一下,这个 2%的数据是我虚构的,并不是通过实际测量获得的。我只是用它来说明我们当前所处阶段的初期状态,以及在未来我们将看到的那些令人惊叹的事物。我的重点其实是想谈论这些方面。在代理行为的研究上,我们正在做的一项工作是努力从用户那里获取大量反馈。
我们在 Glean 内部创建了一个回答复杂问题的工作流程。目前,我们非常依赖用户的帮助来完成这个流程。举例来说,如果你想请求帮助撰写一份我们团队的周工作报告,这就是你的问题。在思考这个问题时,你会发现为了找到答案,需要完成几个步骤。首先,你需要明确“团队”指的是哪些人。这可能需要访问人力资源系统,以找出哪些人向你报告。接着,我们需要了解每个团队成员的工作情况,包括地点。这需要从各种系统中提取大量信息。
因此,我们现在在做的是尝试从用户那获得帮助,为一个复杂问题创建计划,并请用户验证我们做得是否正确。有时候,用户可能完全忽略我们已经做的事情,自行构建一个流程。我认为,这对于我们未来构建完全独立的代理行为非常重要。在特定的小范围问题上可以构建代理行为,而在 Glean,因为我们的覆盖面很广,用户可能面临的问题和所要执行的任务种类繁多。
所以我们觉得,首先需要学习,从人们实际手动创建的工作流程中学习,然后再建立这些模型。这样,未来我们就能处理复杂的问题,并将其自动转化为类似代理的循环或复杂工作流。这就是我们正在采取的方法。
桑娅·黄(Sonya Huang)
我明白了,因为涉及的领域太广泛,无法为每项可能的任务创建可以执行代理任务的推理系统。因此,你们提供了一个工作流引擎,允许用户自行构建各种自动化和代理任务。
阿尔温德·贾因(Arvind Jain)
是的,这样一来你就可以从中学习。一旦你看到人们建立这些工作流程,它们就会被纳入训练数据集中,这使你能够在面对复杂问题时自动创建新的工作流程。尽管这种代理功能仍在发展中,但我依然认为,如果连简单的问题都很难回答,那么处理复杂任务会更具挑战性,因为你可能会犯错。
想象一下,一个自动化工具把复杂任务分解成 10 个独立的步骤,这样错误率就会累积。即便每一步的准确率达到 90%,这已经相当出色,但我认为我们仍处于探索阶段。因此,在构建这些复杂工作流程时,人工干预实际上是至关重要的。
帕特·格雷迪(Pat Grady)
阿尔文,对于正在聆听的人来说,这一点或许已经显而易见了,但我们还是明确地说明一下。第一阶段,即企业搜索领域,如何为你带来了道德或竞争优势,从而让你迈入第二阶段,也就是应用平台或代理平台。这可能不是每个人都了解的,你能简要说明一下吗?
阿尔温德·贾因(Arvind Jain)
通过构建搜索产品,我们能够立即为客户和用户增加价值,帮助解决企业中常见的一系列复杂问题。其中,首要解决的是安全问题。以 Glean 产品为例,我们实际上在向客户表示,他们可以将所有数据交给我们,我们将尽力为他们提供有用的服务。这是一个很高的要求。对于企业来说,信任一个新产品公司或初创企业并将所有数据交给他们并不容易,特别是在尚未直接获得回报的情况下。
然而,有一个对我们非常有利的因素是,我们实际上拥有一个已经可用且广泛使用的搜索产品。这个产品已经在公司内部运行,并与所有企业数据连接。因此,当我们与客户沟通时,告诉他们可以使用它作为核心 AI 数据平台,这大大简化了销售过程。因为我们不必再次说服他们交出数据,这些数据已经在那儿了。
帕特·格雷迪(Pat Grady)
这个类比可能不够完善,但希望还算不错。就像特斯拉因为已经在销售汽车而在自动驾驶领域具备优势一样,你们在交付 AI 代理方面也有优势。你们已经销售出一个数据平台,能够组织企业的所有信息,使其易于访问并确保安全性。同时,人们开始主动向平台咨询问题。接下来,自然就是让它们开始执行任务了。
阿尔温德·贾因(Arvind Jain)
当然。
桑娅·黄(Sonya Huang)
我记得你们还宣布了一组 API,允许开发者基于 Glean 构建应用。可以谈谈这方面的内容吗?这是否是为了响应客户的需求?是什么原因促使开发者选择基于 Glean 构建,而不是直接访问他们自己的数据呢?我猜这可能与您刚才提到的类似效果有关。
阿尔温德·贾因(Arvind Jain)
许多客户希望构建的 AI 应用需要访问分散在不同云端 SaaS 系统中的数据。首先,需要将这些数据汇总到一个地方,并开发一个搜索和检索层,这个过程相当繁琐。集成过程难度大,而且理解权限与治理问题也很复杂。当这些模型变得可访问时,开发者在构建新颖的 AI 应用时感到非常兴奋。
然而,他们实际发现,开发应用至少 90%的工作是在这些繁琐的基础设施工作上,如从不同系统获取数据、运行 ETL 和数据管道,以及构建一个优秀的搜索功能。因此,在真正能够使用 AI 之前,需要花费大量时间。Glean 可以解决 ETL 相关问题,构建出色的搜索功能,并确保公司内部的治理规则得以正确遵守。所有这些工作都已为你完成,你只需使用搜索 API,专注于研究的业务问题,以及 AI 如何帮助实现自动化。
桑娅·黄(Sonya Huang)
在某些方面,你在 ETL 和结合数据治理上的辛勤工作让我想起了 Snowflake。虽然你主要处理的是文本数据和非结构化数据,但是通过核心数据平台进行构建和应用开发的这种特性,让我联想到 Snowflake。
五年后知识工作者的大部分工作会交由 AI 助手完成
帕特·格雷迪(Pat Grady)
Arvind,我们可以问您一个有关未来的问题吗?假如在某个阶段,您暂时失去了目标,您认为五年或十年后,Glean 会起到什么作用?更重要的是,如果您是一个典型的知识工作者,五年或十年后,使用 Glean,您的生活会有什么变化呢?
阿尔温德·贾因(Arvind Jain)
这是个很好的问题。我认为,我们应该把目标设定在五年内,而不是十年。我相信五年后,我们现在从事的大多数工作将不再由我们亲自完成。 这对我们所有“知识工作者”来说都是如此。大部分的工作会交由更强大的 AI 助手来完成,这些 AI 在很多方面都比我们更胜一筹。比如,它们能够全面访问公司所有的数据和知识,掌握所有过去的对话和会议背景,而且不会遗忘。
此外,它们强大的推理能力也能在您进行的任何任务中发挥极大的作用。这正是我们的核心信念——大多数工作将由 AI 助手来承担,而我们希望 Glean 能够成为职场中的这个助理,成为您大部分工作的操作平台。我们预见到未来一种重要的变化,即 AI 将更加主动地提供帮助。目前,许多 AI 是需要您先请求,然后给予反馈,但未来它们将像执行助理一样主动支持您,不仅在您寻求帮助时提供帮助,还会主动指导您的日常,如管理日程、评估工作生活状况,助您更高效地工作。
我相信,不论您身居何职,AI 都将在提供高效且个性化的帮助方面起到关键作用。虽然目前公司里只有少数高管能够享受这样的支持,但未来每个人都会拥有这样强大的 AI 助手协助工作。我们非常期待将这种变革带到工作场所,并希望 Glean 能成为全球最成功的 AI 助手。
帕特·格雷迪(Pat Grady)
喜欢它。
桑娅·黄(Sonya Huang)
阿文德,我们能稍微转换一下话题吗?我想退一步,听听你对其他创始人的建议和看法。你们公司是最成功的应用级 AI 公司之一,仅次于 Copilot 和 Scale。而且你们是以独立创业公司的身份取得这一成就的。我想你们也面临一些独特的挑战吧?例如,OpenAI 既是你们的服务提供商,也是你们的竞争对手,甚至是主要竞争对手。能否分享一下这其中的动态关系是怎样的呢?
阿尔温德·贾因(Arvind Jain)
从创业角度来看,我在许多场合引用过你们的观点。比如说,Pat,我记得你曾在一张幻灯片中提到整个软件市场的规模是 6000 亿美元,而 AI 将其扩大到 15 万亿美元,这个规模相当庞大。这就是我们今天的现实,所有正在进行的工作都会发生根本性的变化,而 AI 是推动这种变化的关键因素。
因此,作为一个创始人,我并不担心其他人在做什么。因为即便我们都在做许多有意义的事情,依然不足以解决所有亟待解决的问题。 这是我的第一个心态。因此,我对其他创始人的建议是:如果你发现了一个问题,就去解决它,不必担心是否有人在着手解决这个问题。因为很可能其他人没有在解决,或者他们的思路与众不同。
现在具体说到 Glean 的情况,我们也有类似的体验。在公司成立的前四年,我们一直在解决一个没有竞争的问题。没有人关注我们所解决的问题,这是一片停滞的市场,于是我们不得不创造一个新类别来激发兴趣,并且充满热情地进行推广。然而,我们知道自己在解决一个重要的问题。
突然,ChatGPT 的出现让搜索领域重新热门起来,现在几乎每个公司都想建立一个像 Glean 这样的产品。这对我们来说是好消息还是坏消息?对我们而言,这无关紧要。我们认为这是个好消息。现在每个人都感兴趣并想购买我们的产品。的确,我们必须与许多其他厂商竞争。但这正是我们认为能胜出的地方,因为我们渴望真正解决这个问题,全力以赴,并专注于此。没有理由不能比其他人做得更好。
帕特·格雷迪(Pat Grady)
据我所知,有人提到,创建一家 AI 公司实际上就是在创建一家公司,找出一个重要的问题,并以创新的方式解决它。我感到特别好奇,因为这并不是你第一次创业,Rubrik 显然取得了巨大的成功,当然,你在 Google 的早期阶段也扮演了重要角色。在创建 AI 公司的过程中,哪些是纯粹的创业共性,哪些又是 AI 特有的元素呢?
阿尔温德·贾因(Arvind Jain)
这是个很好的问题。我认为 AI 主要是你工具库中的一种工具,这并不意味着一旦使用 AI,你的公司就会完全不同。实际上,我认为未来所有公司都会以某种形式使用 AI 技术。关键在于,你要找到一个打算解决的商业问题,并希望通过 AI 更好地解决它。所以,我不认为这会带来本质的改变,也不觉得会有什么不同。比如说,我们自己也不认为是一家 AI 公司。
桑娅·黄(Sonya Huang)
你是否会考虑自行训练模型?我想更广泛地探讨一下,你认为 Glean 的核心竞争力来源于哪里,其边界又在哪里?如果你拥有 100 个人的研发资源,你希望如何进行分配?
阿尔温德·贾因(Arvind Jain)
我们没有计划训练超大型模型。不过,我们会为每位客户提供定制的小型模型。这些专属的语言模型能够分析客户的企业语料库,逐步掌握其中的术语、表达方式、缩写和代号。因此,模型训练是我们核心技术的一部分,但不同于训练 GPT-4 那样的大规模训练。我们不会进行这样的训练,也没有计划这样做。相反,我们计划与其他优秀公司合作,由他们来构建这种规模的模型。
桑娅·黄(Sonya Huang)
感谢 Arvind 今天的加入。这次对话非常精彩,我们深表感激。
阿尔温德·贾因(Arvind Jain)
感谢您的邀请。