Braintrust 创始人揭秘：企业如何灵活构建弹性 AI 产品？

在本次由 Elad Gil 主持的访谈中，采访对象是 Braintrust 的创始人兼 CEO Ankur Goyal。访谈集中探讨了 Braintrust 如何通过有效评估和管理复杂且不确定的 AI 应用程序，实现大规模部署 AI 解决方案。讨论涉及 AI 在组织中的广泛应用、开源趋势的兴起以及数据基础设施未来的发展等话题。Goyal 分享了他在构建弹性 AI 产品、首席执行官编程理念以及初创公司初始客户群体重要性方面的见解。这些观点对于在技术和市场迅速变化的环境中实现高效协作并保持创新的企业而言，具有重要的参考价值。

Ankur Goyal 的核心观点包括：

创新源于需求： Braintrust 的诞生是出于对AI产品评估和开发工具的迫切需求。Ankur Goyal 在经历Impira和Figma的挑战后，意识到构建AI产品时普遍存在的问题，并创造了Braintrust以解决这些问题。
技术演进与持久问题： 尽管AI领域经历了从大语言模型出现前到出现后的转变，但核心问题依旧。Ankur Goyal 通过两次构建相同工具的经历，揭示了这些技术挑战的持久性。
市场需求驱动创新： Braintrust 的发展受到市场需求的强烈推动。客户对于有效评估解决方案的渴望促使了Braintrust从粗糙原型到强大工具的快速迭代。
AI 的普遍性和标准化： Ankur Goyal 强调了AI作为组织中普遍存在的技术，需要统一和标准化的工作方式。这反映了AI领域对于标准化流程和文档的需求，以促进新工程师的快速学习和迭代。
开源模型的关键时刻： 随着开源模型如Claude 3.5和Llama 3.1的推出，AI领域正接近一个关键时刻。尽管开源模型的实际应用有限，但其关注度和影响力正迅速增长。
AI 产品的未来： Braintrust 的未来发展将集中在成为一个完整的AI开发平台，不仅包含评估和可观测性，还可能整合IDE功能，成为AI工程师的首选工作环境。

以下是本期播客内容的完整翻译，我们作了不改变原意的删减。

创立 Braintrust 的历程

伊拉德·吉尔（Elad Gil）

今天在 No Priors 节目中，我们邀请到了 Braintrust 的联合创始人兼 CEO Ankur Goyal。Ankur 曾担任 Singlestore 的工程副总裁，并创立了 AI 公司 Impira，该公司已被 Figma 收购。Braintrust 是一个用于构建 AI 应用的端到端企业平台，帮助 Notion、Airtable、Instacart、Zapier、Vercel 等公司进行评估、可观察性以及 AI 产品的提示开发。最近，Braintrust 刚刚从 Andreessen Horowitz 等投资者那里筹集了 3600 万美元。Ankur，非常感谢您今天参加我们的 No Priors 节目。

安库尔·戈亚尔（Ankur Goyal）

非常感谢能够来到这里。

伊拉德·吉尔（Elad Gil）

您能否详细介绍一下 Braintrust 产品的具体功能？此外，您可以分享一下自己是如何进入这个领域，以及在更广泛的人工智能领域中的经历吗？

安库尔·戈亚尔（Ankur Goyal）

当然可以。我在 AI 领域的工作时间可以追溯到现在所谓的“古代历史”。2017 年，当我们开始研发 Impira 时，AI 环境截然不同。当时，要推出一个有效的产品仍然困难重重。因此，我们在开发 AI 产品的过程中，内部创建了工具来帮助我们评估问题、收集真实用户数据，并利用这些数据更好地进行评估。几年后，Figma 收购了我们，我们再次遇到了相同的问题，并几乎重新构建了相同的工具。我认为这很有趣，原因有很多，其中一些是在我们聊天时提到的。

首先，Impira 可以被视为大语言模型（LLM）出现之前的产品，而我在 Figma 的工作则是在大语言模型出现之后。但这些问题依然如故，我认为这暗示了这些问题的持久性。大语言模型出现之前的问题，可能会在大语言模型的世界中继续存在。其次，我们实际上两次构建了相同的工具，这表明对此有一种持续的需求。

我清楚地记得与许多人聊过的经历，例如在 Zapier 的 Brian 和 Mike，以及在 Notion 的 Simon 等人。我参加过许多用户访谈，但从未见过像早期的 Braintrust 想法那样引起共鸣的东西，几乎所有人都渴望有一个有效的评估解决方案。于是我们开始研发，坦率地说，最初的原型非常粗糙。然而，人们开始使用它。一年多后，Braintrust 根据用户的反馈、抱怨和意见不断迭代，成为了一种真正强大的工具。这就是我们的起点。

伊拉德·吉尔（Elad Gil）

是的，我记得在我们最初讨论这个公司或这个想法时，它甚至可能是开源的。这是我第一次参加与客户的电话会议时，有人说我们不希望你将其公开共享，这让我非常惊讶。人们确实在推动这个项目，希望它能够长期存在，并愿意为此付费。因此，这种市场需求引起了特别的关注。你认为为什么会出现如此大的兴趣或需求？Braintrust 的功能是什么，它如何为你的客户提供帮助？

安库尔·戈亚尔（Ankur Goyal）

许多客户在与我们合作之前，常常已经建立了自己的内部“智囊团”。我们从中得出了一些见解。首先，他们意识到了问题的复杂性。评估（evals）表面上看似简单，“你可能以为这只需一个 for 循环，然后用 console.log 查看结果。”但实际上，评估速度越快，查看结果越迅速，事情就会变得愈加复杂，特别是当涉及到代理等更复杂的问题时。事实上，进行有效评估是一项相当复杂的挑战。我们的许多早期客户，作为 AI 工程领域的先锋，正是通过艰苦的实践认识到了这一点。

另一个问题是，人们，尤其是像 Brian 这样的人，认识到 AI 将成为整个组织中普遍存在的技术，而不仅仅局限于他所负责的某个项目。因此，采用一种统一和标准化的工作方式显得尤为重要。 我还记得，在早期时，Brian 向我展示了 Vercel 的文档。他谈到自己欣赏的一点是，新进的工程师可以通过这些文档学习正确构建 Web 应用程序的方式。当我们看到 AI 领域中类似的机会时，这一点深深打动了我，并对我们的思考方式产生了重大影响。

伊拉德·吉尔（Elad Gil）

这非常有道理。我认为，当你更换模型时，比如将 GPT-4 替换为 Claude，或者更改提示词，这有助于你真正了解这种变化对结果的影响，以及哪些用户体验会更好或更差，从而进行相应的故障排除。除此之外，你还有整套其他产品来支持这个过程。

安库尔·戈亚尔（Ankur Goyal）

在构建 AI 产品时，质量难以预测是一个巨大挑战。你可能会对某个功能非常兴奋，而打造出一个在某些例子中表现良好的原型。但是当发布给用户时，却发现效果并不理想。从原型发展到系统化优秀运行的产品是相当困难的。我们协助公司所做的大概就是消除这个过程中的神秘感。与其担心产品发布后无法良好运作，不如实施一些评估和集思广益，逐步改进，以获取非常优秀的输出结果。

伊拉德·吉尔（Elad Gil）

你与许多我认为最早将 AI 应用于产品的公司展开合作。换句话说，这些公司实际上已经推出了包含 AI 的产品，可以说是第一波企业。其中包括 Notion、Airtable、Zapier，以及类似的 Vercel。在你的客户中，有多少公司正在采用那些广受讨论的技术，比如微调、RAG（检索增强生成）或构建代理等？你觉得这些技术的应用是否普遍，还是只是概念上的炒作？因为我认为，在了解人们实际在做什么方面，你对企业市场的某一细分领域有很深入的认知。

安库尔·戈亚尔（Ankur Goyal）

在当前环境中，RAG（检索增强生成）技术被广泛使用，因此这既简单又显而易见。在我们观察到的生产环境用例中，大约有一半涉及某种形式的 RAG。关于微调，这是一个值得讨论的话题。很多人将微调视为最终目标，但实际上它只是一种技术手段。大家所期望的是自动优化工作负载，而微调只是实现这一目标的方法之一。这是一种非常具有挑战性的自动优化用例。我们大约每两到三个月会与客户合作，对他们的工作负载进行微调基准测试。

当 GPT-3.5 微调推出时，仍距离 GPT-4 的发布有一段时间，因此在当时，进行操作相对容易。如今，运行 GPT-4 的成本实际上很低。但过去曾有一段时间，使用 GPT-4 相当困难，因此 GPT-3.5 微调是提升某些用例质量的唯一方法。然而，坦率地说，几乎所有客户后来都从微调模型转向使用指令优化模型，并且获得了非常好的性能。

实际上，我们一开始就讨论过这个问题。我记得当我们考虑“知名团队”功能时，认为大家都需要用它来微调模型。这是我们最早计划构建的功能之一。然而事实证明，其实并没有人真正这样做。

伊拉德·吉尔（Elad Gil）

微调是指在预训练模型的基础上，通过在特定的数据集上进一步训练，以提高模型在某一特定任务或应用上的表现。在这个过程中，通常会使用与最初训练任务相似的数据集，以确保模型能够更有效地在该领域中实现更优的性能。

指令微调则是一种更为专注的微调方式，其目的是提升模型对指令的理解和执行能力。这种微调通常在包含人类编写指令的任务上进行，从而增强模型对用户输入及具体指令的响应能力。在生成式人工智能应用中，指令微调能够显著提高模型的交互性和实用性，使其更好地响应和执行用户提供的指令。

安库尔·戈亚尔（Ankur Goyal）

我认为这就像编写 Python 代码与开发 FPGA（现场可编程门阵列）之间的区别。指令微调只需修改提示以包含行为示例。在某种程度上，这实际上非常类似于微调：你需要收集数据来指导模型的行为，并将其用于帮助模型朝这个方向发展。微调则是一个更底层的操作，实际上是对模型中的权重进行修改或补充，以便模型能够从这些示例中学习。由于它是一个更底层的操作，因此往往速度更慢，成本更高。在微调过程中，有很多可能会损害模型的方法，这可能导致模型在实际应用中表现不佳。因此，正确进行微调是相当困难的。

我们正接近开源模型的关键时刻

伊拉德·吉尔（Elad Gil）

您看到更多的是开源技术被采用，还是主要使用专有模型呢？您现在还观察到人们在采用哪些其他的早期技术？

安库尔·戈亚尔（Ankur Goyal）

我们正接近一个开源模型的关键时刻。 这就像 Anthropic 推出 Claude 3，尤其是 Claude 3.5 Sonnet 时的重要时刻一样。我认为我们离 Llama 3.1 的这个时刻也已经很近，但尚未完全到来。因此，我们看到开源模型的实际应用仍然非常有限，但其关注度却达到了前所未有的高度。

伊拉德·吉尔（Elad Gil）

我认为你看到的很多内容，正是那些正在开发或已经在使用中的技术，对吧？在某种程度上，开发者社区中有很多讨论是关于人们如何使用、采纳和试验这些技术的。我认为你真正关注的是那些推出 AI 产品的企业和市场。显然，这些技术也可以被黑客和开发人员利用，但很多用户实际上是那些已有产品在运行的人。因此，这在一定程度上反映了现有大型实时系统的状况。

安库尔·戈亚尔（Ankur Goyal）

作为一名开发者，我热衷于开源软件，但让我难以接受的是，每次使用开源 AI 模型时需要为每个 token 支付费用。然而，通过仔细分析数据并与客户交流后，我发现这些费用在某些情况下是微不足道的，而对于较为昂贵的情况，其投资回报率（ROI）却非常高。因此，我们的大多数客户都非常注重为用户提供最佳体验和为开发者提供最快的迭代速度，其他因素则显得次要。因此，我认为，除非开源在这两方面取得重大突破，否则很难被广泛采用。

伊拉德·吉尔（Elad Gil）

在您的职业生涯中，您还投入了大量时间在数据库和数据基础设施等领域。您曾在 SingleStore 担任工程副总裁，该公司以其出色的数据库团队而闻名。您怎么看待如今 AI 领域的数据基础设施？当前有哪些需求和不足？哪些方面做得好，哪些不尽如人意？

安库尔·戈亚尔（Ankur Goyal）

人们已经在数据仓库中积累了大量的半有用数据。事实上，在大语言模型（LLMs）问世之前，就已经存在一个以 AI 为核心的完整行业。例如，像 DataRobot 这样的公司会帮助您利用专有数据仓库中的结构化数据进行模型训练。我认为对于大语言模型而言，一个重大见解，或者说是一个有些疯狂且悖于常理的观点是，基于互联网训练的模型比用企业自有仓库数据训练的模型表现更好。

我认为这不仅与数据处理问题的性质不同有关，还与我们对数据价值的看法截然不同。仅仅积累你的索赔历史或交易历史数据可能并不那么有用。真正需要思考的问题是，如何构建出一个真正擅长解决您正在研究的问题的模型。我认为企业收集数据并将其应用于 AI 过程的方式，将不同于目前在 Amazon 运行的数据仓库中执行 ETL 操作的方法。我认为这将迎来彻底的改变。我还注意到，许多数据被记录在员工的脑海中，而没有真正进入数据仓库。然而对此人们并不太在意，因为即使他们将这些数据存入数据仓库，也不知道如何利用它。

伊拉德·吉尔（Elad Gil）

就数据基础设施而言，您认为当前还存在哪些不足之处？您提到过，这其中包括数据清洗步骤、存储层以及不同类型的数据标记等几个环节。您认为在未来几年内，这些方面将会如何发展？此外，我想这还与另一个热门话题相关，即合成数据及其未来的重要性。我很想了解您对这些不同领域的看法。

安库尔·戈亚尔（Ankur Goyal）

从数据处理的角度来看，重要的是首先考虑如何对数据进行处理，然后再考虑基础设施如何支持这些处理。数据仓库最初是为了结构化数据的临时探索而设计的，但这与 AI 领域并没有直接关联。在处理大量文本时，不是通过 SQL 查询进行，而是通过嵌入和模型来帮助筛选大量数据。例如，如何在评估数据或微调数据集中的客户支持工单中体现处理效果。这表明，许多领先公司正在转向这种方法。

我认为，工作负载将发生变化，特别是嵌入技术和大语言模型将成为查询数据的主要方式，而不是传统的代数关系索引。这会带来巨大的改变。关于向量数据库是否能够由传统数据库处理的争论，我认为有些不必要。我相信关系数据库完全可以添加 HNSW 索引。OLAP 工作负载将面临颠覆，传统数据仓库架构中无法简单地添加语义搜索功能。我认为，改变的核心在于需要解决一系列更深层次的问题，而不是简单地关注 OLDP 工作负载。

Ankur 的创业经验

伊拉德·吉尔（Elad Gil）

在一些方面，这已经是你的第三次创业经历了，对吧？你早期加入了 MemSQL（现称为 SingleStore）。之后，你在 Pure Storage 工作，接着去了 Figma。现在，你正在进行 Braintrust 这个项目。在这次新的创业中，你有哪些共通的经验可以带入？你在早期阶段实施了哪些经验？又有哪些是你试图避免的？

安库尔·戈亚尔（Ankur Goyal）

在 MemSQL 工作期间，我习惯了非常严格的技术面试过程，这一点我们在 Braintrust 也予以重现。虽然 MemSQL 可能在这方面稍显过度，但其技术卓越是有口皆碑的，我们的面试正好反映了这一特点。因此，技术面试是我们启动的首批工作之一。我和 Manu 可能花了两到三天时间准备了一些非常困难的问题。我认为，保持高标准的技术要求非常重要，并努力吸引那些接受这种标准的人。例如，在 Braintrust 的前端面试中，我们要求候选人编写一些 C++ 代码。我们因此失去了一些候选人，但这也说明 Braintrust 可能不适合他们，因为我们希望招募愿意尝试不熟悉领域的人。我认为这是我们应该继续坚持的做法之一。

在 Impira 和 MemSQL，我们在与客户的关系上也做得很好，并专注于客户的成功。有时，优先处理客户反馈很困难，特别是当 10 位客户有 10 个不同的要求时，该如何应对？在 Braintrust，我们非常谨慎地选择重点客户，特别是在早期阶段。我们假设像 Zapier 和 Notion 这样的公司可能会有相似的需求。因此，通过专注于这类客户，当他们提出需求时，我们可以合理地假定，其他类似客户也会有相同的问题。这样，在为更多客户开发可复制产品的同时，我们能够保持高度的客户导向。

现在，我们看到一波新公司借助 AI 构建产品，无论是初创企业还是传统企业，它们都希望工程设计能够媲美它们所欣赏的产品，而这些产品大多采用了 Braintrust。因此，许多最佳实践已经内嵌在我们的产品中，下一代公司可以直接从中受益。

伊拉德·吉尔（Elad Gil）

是的，这很有趣。我感觉到，即使公司最初开始将大型语言模型（LLM）应用于实际产品，他们都会经历相同的创业历程，或者说是技术历程。最开始，他们会去研究，至少在那个时候，他们会研究微调或一些开源模型或其他东西。最终，他们会意识到，直接使用当时的主流模型 GPT-4 才是明智之举。接着，他们会经历一个大的循环，开始构建内部工具，然后意识到真正应该专注的是产品。

你知道的，这完全是相同的历程。我记得在他们早期与客户的头脑风暴会议中，当你与他们交谈时，他们会说，哦，我们不需要这个。然后三个月后，他们会打电话来说，好吧，我们确实需要这个。而且这总是在大致相同的时间段内发生。你现在是否注意到，那些使用大型语言模型（LLM）已有一年或 18 个月的公司，是否在过程中有任何共同的模式，比如总是会发生相同的情况呢？

安库尔·戈亚尔（Ankur Goyal）

需要注意几个方面。首先，一些发展较为深入的公司，他们拥有一两个相当成熟的明星产品，正在探索如何让这些产品进入下一个阶段。我观察到一个很一致的现象是，这些公司逐渐放弃了依赖完全自由形式的智能体技术来解决所有问题的想法。

大约两三个月前，很多前沿公司深陷于智能体技术，后来意识到这样并不是正确的策略。管理这些智能体的表现非常困难，错误率高且容易累积。因此，大多数公司已退而求其次，尝试构建其他架构，通过代码更可控地管理控制流，同时在整个产品架构中调用大语言模型（LLM）。这可能是我们目前看到的最大变化，尽管现在可能还没有一个合适的术语来描述它，但可以看作是将 AI 工程作为产品中的一个普遍存在的组成部分，而不是试图将所有内容嵌入智能体的循环中。

伊拉德·吉尔（Elad Gil）

我听说您曾提到过 AI 团队在公司中角色演变的话题。我认为几年前，人们在进行机器学习时通常会聘请一个庞大的机器学习运维（MLOps）团队。他们日常的工作与今天在 AI 普及背景下的工作大相径庭。甚至在看待这一角色以及对应聘人员的要求方面，也可能有所变化。您能谈谈您对数据科学团队、数据团队以及机器学习或 AI 团队角色演变的看法吗？

安库尔·戈亚尔（Ankur Goyal）

令人感到有趣的是，在 ChatGPT 推出时，许多大语言模型的早期采用者并非机器学习领域的专家。这大约发生在两年前。那些公司之所以能够快速行动，是因为他们几乎是从零开始。实际上，我认识的许多聪明的传统机器学习专家或数据科学家，现在也逐渐接受了基于大语言模型的观念。然而，在早期，他们对大语言模型充满抵触，认为这种模型不适合解决我们试图解决的问题，甚至认为这可能是一种骗局。

伊拉德·吉尔（Elad Gil）

你认为这只是因为问题集的不同，还是因为传统机器学习及其应用所执行的任务不同？或者你认为还有其他原因？

安库尔·戈亚尔（Ankur Goyal）

我亲身经历过这样的情况，曾见证我们在 Impira 开发的文件提取技术不再受到关注。对我而言，这具有情感上的意义。当你第一次使用 GPT-3 时，可能会感到讽刺和恼怒，因为它在各方面的表现远远超出传统技术的结果。我认为这种转变对许多公司和个人身份带来了根本性的颠覆。如果你在人工智能和机器学习领域工作了一段时间，这确实让人难以理解。因此，我认为这主要是一个情感上的挑战。有人可能会就成本、安全、隐私等问题提出异议，但是那些走在前沿的公司很快就能解决这些问题。

如今，越来越多的公司参与到这一进程中。我见过许多非常聪明的机器学习和数据科学人员接受大型语言模型（LLM），他们将很多仍然相关的严格方法引入其中，例如评估、测量和原型设计等，从而形成这样的 AI 平台团队。通常，这些团队由具备产品工程背景的人和一些拥有统计或数据科学背景的人共同组成。首先，他们为公司开发一个标志性产品，然后发展成为一个平台团队，使后续项目取得巨大成功。随着 AI 的普及，我们看到越来越多这样的团队正在形成。

伊拉德·吉尔（Elad Gil）

如果你现在是一家企业，并计划采用 AI 或大型语言模型（LLMs），你需要招聘具备什么素质的人才？或者你需要将哪些能力转移到这个平台或团队中呢？

安库尔·戈亚尔（Ankur Goyal）

我会选择一组非常聪明的产品工程师作为起点，因为首先你需要思考的是，产品的哪些部分或我提供的服务可以被现代 AI 颠覆或革新。通常，产品工程师是解决这些问题的最佳人选。仅通过一个优秀的用户界面和一些基础的 AI 工程，你就可以取得显著进展，从而验证一个概念。

我认为我们已经看到了不少成功的例子。比如说，vZero 就是一个真正令人惊叹的工程作品，无论是从 AI 还是用户界面的角度来看都表现出色。然在早期，它的设计却非常简单，而这正是合理的起点。当你找到产品与市场的契合点后，就应该考虑更为严谨的设计，比如进行微调，或许可以通过使用开源模型来节省成本。不过，我认为，目前很多人在这条路上还没有走得很远。

AI的语言：TypeScript

伊拉德·吉尔（Elad Gil）

尽管你可能听到过这样的说法：“TypeScript 常用于前端开发，而 Python 在机器学习领域非常流行。”但实际上，这两种语言在各自的领域中都有其独特的应用。

安库尔·戈亚尔（Ankur Goyal）

是。

安库尔·戈亚尔（Ankur Goyal）

我们的大多数客户都在使用 TypeScript。早期，有些客户在考虑是使用 TypeScript 还是 Python。一些团队选择了 TypeScript，而另一些则使用 Python。然而，现在几乎所有人，包括那些以前主要用 Python 编写代码的人，也转用了 TypeScript。我认为这种趋势会持续下去。原因有几个。首先，TypeScript 是一种产品工程语言，而产品工程师是推动大量 AI 创新的主力，至少在我们参与的领域中是如此。因此，他们实际上将 AI 生态系统融入他们的工作环境，这推动了 TypeScript 的广泛使用。

另一个原因是 TypeScript 的类型系统更适合处理 AI 工作负载。类型系统基本上可以让你规范化 AI 模型生成的各种复杂结果，以便软件系统的其他部分使用。相比之下，Python 的类型系统不如 TypeScript 成熟。他们在不断改进，每当我在 Twitter 上发表这些观点时，总会有人提出质疑，虽然他们也有一定道理。但实际上，TypeScript 确实在处理数据不确定性方面表现更佳，这也是其设计的初衷之一。因此，我认为 TypeScript 确实更适合处理 AI 工作。

伊拉德·吉尔（Elad Gil）

在这一波 AI 发展的浪潮中，您是否注意到特定语言或工具的使用发生了什么变化？

安库尔·戈亚尔（Ankur Goyal）

我认为在过去六个月中，我观察到的最大变化是，人们正在逐渐放弃对框架的依赖。 起初，大家认为 AI 是一种独特的技术，类似于 Ruby on Rails 或其他框架，需要开发新的应用程序和框架来构建 AI 软件。然而，现在人们的看法发生了变化，将 AI 视为软件工程的核心部分。因此，AI 正广泛融入到代码库中，而不再局限于单一框架所能实现的功能。

伊拉德·吉尔（Elad Gil）

你认为还有哪些其他领域正在逐渐被人们使用，并且拥有潜力的新兴平台、方法、产品或基础设施？

安库尔·戈亚尔（Ankur Goyal）

我认为，我们从很多客户那里观察到的现象是供应商的整合。这一趋势在很大程度上是由 AWS 推动的。AWS 在其 Bedrock 平台上引入了 Anthropic 后，重新获得了动力。尤其是 Anthropic 的 Cloud 3 和 3.5 版本，表现非常出色。因此，尽管许多公司在 AI 出现之前就已经开始整合供应商，但 AWS 现在已变得极具主导地位。 实际上，您在 AWS 上可以整合许多与 AI 相关的服务。我们注意到，供应商之间的整合非常显著。在与一些公司的沟通中，我们发现他们的 AI 供应商实际上只剩下 OpenAI、AWS 和 Braintrust，其他的基本都被整合了。因此，未来的变化将非常有趣。我绝不会低估 AWS 及其超大规模云服务提供商在基础设施方面的实力。

适应干扰驱动的工作方式

伊拉德·吉尔（Elad Gil）

我注意到一个现象，尽管担任 CEO，许多人仍然花大量时间在编程上。在不少公司中，CEO 在职业生涯中始终坚持一定程度的编程，比如 Shopify 的 Tobias 就是一个有趣的例子。你如何看待在编程、市场营销以及其他公司事务上的时间投入？为什么要将重点放在这些方面？

安库尔·戈亚尔（Ankur Goyal）

随着时间的推移，我对这一切的看法发生了很大变化。年轻时，我从领导一家公司的工程团队开始，逐渐升任为 CEO。在这个过程中，我收到了许多关于如何有效利用时间、该雇佣什么样的人等传统建议。首先，我认为 CEO 的角色正在变化，其次，我注意到市场也在转变。在我们所处的企业软件行业，用户非常注重软件的界面设计和用户体验。例如，像 Notion 这样的公司就引领了这种产品审美的潮流。

然而，许多风投（VCs）在积累经验和观察其投资公司采用的模式后，发现情况与传统认知大不相同。IT 部门通常根据产品经理提供的清单来采购企业软件。我认为很多事情已经发生了改变。对我而言，参与这种变革再自然不过了，通过深入了解产品来实现变革。尽管在过去十多年里，我一直努力尝试改变这种惯性，但我未能如愿。

我想我对编写代码简直上瘾。这是我参与公司事务最快捷、最高效、且最愉快的方式。与其试图改变这一点，我选择在设计自己的工作环境时，创造一种能让我投入更多时间编写代码的方法。比如，我们招聘的第一位员工是 Albert，他曾是投资者和投资银行家。他在销售、市场营销、运营管理和招聘方面都很出色，与他的合作让我能投入更多时间去做我热爱的工作。在 Empira，我大约有一半甚至更多的时间都用来做这些事情。

伊拉德·吉尔（Elad Gil）

是的，我们之前在 NoPriors 上采访过 NVIDIA 的 CEO 黄仁勋。我认为他分享了一个不常听到的观点，而你现在也在重复，那就是公司架构应该围绕企业家来设计，而不总是照搬常规的做法来做对公司有益的事情。 显然，在某些领域，比如销售补偿机制，你确实需要每次都遵循相同的做法，因为重新设计这些机制没有意义。许多人在第一次创业时常会做这样的尝试，但在第二次创业时，他们会思考，为什么要这样做呢？这种方式确实有效。但另一方面，有些事情需要委派，有些则不需要；有些需要被微观管理，而有些则无需如此。这确实因人而异，取决于他们的偏好以及其他因素。在你经营 Braintrust 和 Empira 时，与之前的创业项目相比，还有哪些显著的区别呢？

安库尔·戈亚尔（Ankur Goyal）

在 Braintrust，我们非常支持两件事：员工在办公室工作以及适应干扰驱动的工作方式。在公司发展的一些阶段，这些曾是我们的挑战，因为我们那时对此没有明确立场。尤其是适应干扰驱动的工作方式，这一点更为有趣。在 Braintrust，如果客户对我们提出投诉、对用户界面不满意，或者有新想法，我们几乎总是立刻做出调整。

这样的工作环境可能让许多工程师感到不适，但对于那些渴望这种体验的合适人才来说，这是他们职业发展的追求。因此，我们精心选择乐于接受这种环境的工程师，并在规划产品路线图和时间分配时，支持这种工作方式。我认为，这是让产品出色并赢得客户青睐的关键因素之一。虽然不是每个人都需要这种特质，但我认为你必须拥有某种优势。我们很早就认识到这种特质对我们非常重要，并组建了一支真正想从事这项工作的团队。

伊拉德·吉尔（Elad Gil）

是的，我想这已经提高了客户的接受度，并帮助你们赢得了一些标志性的客户。除此之外，还有其他促进客户获取的因素吗？在市场推广方面，你们是否采取了独特的方法？

安库尔·戈亚尔（Ankur Goyal）

我们做的最重要的事情之一就是列出一个大约包含 50 家我们认为在 AI 领域处于领先地位的公司名单。然后，我们设法与这些公司接触，使它们成为我们的投资者或客户。我认为这可能是我们最重要的举措之一。有些人，比如那些对 Braintrust 感兴趣的人，我们与他们认识已有一段时间。他们投资后表示，其实他们已经在内部建立了自己的版本，或者他们并不真正关注该产品，只是认为其他人会需要它，因此很愿意投资。事实上，现在已经有很多人开始使用 Braintrust 了。明确我们的目标市场非常重要，尽管 50 家公司算不上一个庞大的可服务市场（TAM），它们却非常有影响力，吸引了许多其他客户。因此，我认为这是最重要的事情。

伊拉德·吉尔（Elad Gil）

看起来，人们在定义早期客户群体或目标市场时，确实缺乏明确性。结果，要么将范围定得过于宽泛，比如同时涵盖财富 500 强公司和小型初创企业，却没有针对特定用户群体量身定制产品；要么范围太过狭窄，甚至专注于一个不值得投资的利基市场。因此，观察人们如何对待这个问题非常有趣。您能否谈谈您对 Braintrust 发展的看法？作为一个产品和平台，它将如何演变？随着人工智能的发展，它将会有怎样的变化？未来所有的评估是否都会由机器完成，还是会有其它情况发生呢？

安库尔·戈亚尔（Ankur Goyal）

是的，我几乎每个月都会自问这个问题，但结果却几乎没有太大变化。对于 Braintrust 来说，我们从解决评估问题入手，并且我认为我们在这方面做得非常出色。我们意识到，人们真正需要的是一个完整的平台。我们的早期客户之一，Airtable，就使用我们的评估产品来实现可观测性。他们每天创建实验，并将日志导入这些实验中，这类似于评估。当有人开始这样做时，很明显，他们在努力实现产品的可观测性。我们深入分析，发现可观测性在 AI 领域的重要意义在于将数据收集整理，以便进行评估，然后用于模型微调或其他更高阶操作。然而，评估依然是最核心的要素。

后来，有部分客户反馈，他们已经在 Braintrust 上实现了可观测性和评估，投入了大量时间使用这一产品。他们疑惑，为什么还要回到传统的 IDE？因为 IDE 对他们的评估和日志全无了解。他们想知道能否直接在 Braintrust 中处理提示，看能否在现场查看重现的内容，能否保存提示并自动部署到生产环境中。从传统软件工程的视角来看，这或许比较令人生畏，但这正是用户所追求的。最近，有位名叫 Martine 的用户提到，他已经成为 Braintrust 的活跃用户，现在每天有一半的时间都在 Braintrust 的 AI 环境中调整提示。即使是像我们这样的传统工程师，也开始认识到这是正确的方法。

我观察到 Braintrust 正在逐渐发展成一种混合环境的趋势。在某些方面，它有些类似于 GitHub。你可以创建提示，如今也可以使用 Python 和 TypeScript 代码开发更高级的功能，将其与提示结合，贯穿于评估和可观测性的整个流程中。我们对构建一个通用的 AI 开发平台感到非常兴奋。

至于质量方面，经历了大语言模型（LLM）出现前的时代，我意识到关于质量的许多焦虑和预期其实并未改变。即使在我们 Impira 进行文档处理工作时，不少人也认为所有文档可以在短短六个月内被完美提取。虽然大语言模型表现出色，但文档处理仍然并未完全解决。这是因为人们总是努力将现有技术推向极限。而今天，我们尝试的某些事情已超出了这些限度，比如 auto.GPT 就是一个推动 AI 达到其合理能力极限的实验。但人们总是希望突破极限。AI 本质上充满不确定性，因此评估将始终存在，只是在评估上的问题将越来越复杂和有趣。

伊拉德·吉尔（Elad Gil）

那么，你认为 AI 在自我评估中将会扮演什么角色呢？

安库尔·戈亚尔（Ankur Goyal）

AI 现在已经能够自我评估了。这个过程与传统的数学有些类似，就像在做数学作业时，验证别人提供的证明相比自己去创作一个证明要容易得多。同样的道理也适用于大型语言模型（LLM）。对于 LLM，尤其是前沿模型，查看自己或其他模型的工作并进行准确的评估更加轻松。这一趋势已经开始显现。在 Braintrust 中，可能超过一半的评估由 LLM 执行。随着 LLM 的不断改进和 GPT-4 的质量成本降低，我们看到了一些有趣的趋势，人们甚至开始在日志中进行基于 LLM 的评估。

在 Braintrust 中，你现在可以做的一件非常酷的事情是撰写包含 LLM 和代码的评估，并在一些日志上自动运行。有时候，这甚至能够评估那些你无权查看的内容。因此，LLM 可以读取个人身份信息（PII），分析内容，并判断你的用例是否有效，而这些内容可能是公司中的开发者或其他人员无权查看的。我认为这是一项非常有趣的突破，可能预示着未来至少一年内人们将从事的工作方式。

伊拉德·吉尔（Elad Gil）

非常有趣。Ankur，非常感谢你今天能加入我们的访谈。