近期,Groq 的创始人兼 CEO 乔纳森·罗斯(Jonathan Ross)在罗伯特·斯科布尔(Robert Scoble)的播客里分享了 Groq 的突破性 AI 硬件技术。
最近,Groq 在社交媒体上炙手可热,很多人发消息惊叹使用 Groq 之后运行速度之快。对此罗斯提到,Groq 的成功不仅在于先进的晶体管技术,更在于其独特的架构设计,能够在硬件层面解决许多软件无法克服的问题。在播客中,两人不仅深入探讨了 Groq 在智能汽车领域的应用,还分享了罗斯在 Google X 的创新经历和对 AI 未来发展的看法。关于是否在苹果电脑上加入 Groq 这样的技术,罗斯谈到与一些大公司在沟通,但不能透露。
Groq 是一家专注于生成式 AI 加速器和高性能计算的公司,由 Google TPU(张量处理单元)发明者乔纳森·罗斯创立。在今年五月,Groq 的 LPU 推理引擎在最新的大型语言模型(LLM)基准测试中表现优异,达到了每秒 241 个标记(token)的处理速度,超过了其他主要供应商的两倍,展现了其强劲的领先优势。
《Unaligned: AI with Robert Scoble》是一个专注于人工智能的播客频道,由科技领域资深人士罗伯特·斯科布尔主持,频道涵盖的 AI 主题十分广泛,主要通过与企业家和 AI 专家的深入访谈,探讨如何更有效地在商业中利用 AI 技术。它旨在帮助企业和个人了解最新的 AI 发展和应用,更好的理解和利用 AI 技术。
乔纳森·罗斯(Jonathan Ross)的核心观点包括:
- Groq 彻底重构了整个技术栈,芯片、系统、编译器、运行时、编排层以及网络,这些都必须彻底重构,否则它们就会成为瓶颈。GPU 在并行处理上非常出色,CPU 在顺序处理上非常出色,Groq 在两者上都有独特的优势。
- 当你使用 Groq 时,我们会使用数百甚至数千个芯片,以极低的能耗快速给出答案,因此我们的成本也更低。然后,我们会比本地处理更快地将结果发送给你。SRAM,就是芯片内的存储器,是我们进行所有计算的地方,这才是关键所在。
- 我们认为 GPU 在训练方面确实很出色,但我们不会在这方面与他们竞争。 训练需要并行计算,而不是顺序计算。即使 GPU 免费,运行推理任务的成本仍然比在我们的系统上全速运行更高,因为我们的系统专为这种速度而设计。
- 我们不会存储数据超过一小时。原因是我们既不训练模型,也不创建模型,我们只提供计算资源。
- 仅仅 10 周内,我们的封闭测试开发者从 10 人激增至网站上的 175,000 人。开发者在我们的网站上非常活跃。到年底,我们将成为所有初创公司都依赖的平台。我们的目标是让每个人都能够使用 AI。
- 违反直觉的任务只能由小团队完成,团队越大,实现这些目标就越难。团队规模越大,你所构建的东西就越容易与他人构建的东西趋同,因此需要保持团队的小规模。
- 未来一年半内的所有高带宽内存(HBM)已经被预订一空,每一块即将生产的 GPU 也都已经被预订。在 Groq,我们不依赖这些组件,而是为全球构建了一个替代的 AI 供应链。到 2025 年底,我们可以将全球的 AI 推理计算能力提高一倍。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
比 OpenAI 不止快两倍
罗伯特•斯科布尔(Robert Scoble):
这个话题非常有趣。旧金山的许多人都在跟我谈论这家公司,他们说 Groq 的 AI 运行速度比其他任何 AI 系统都快两倍,甚至比 OpenAI 的新模型还要快。因此,我很高兴能邀请到 Groq 的 CEO,就是带 Q 的那个 Groq,另外还有一个 Grok(来自马斯克的 xAI),我们可能也会聊聊它。介绍一下你是谁。
乔纳森•罗斯(Jonathan Ross):
我是乔纳森•罗斯,我是带 Q 的那个 Groq 的 CEO 和创始人。等一下,只快两倍?
罗伯特•斯科布尔(Robert Scoble):
嗯,早期测试显示至少快两倍。让我们从宏观层面开始,为那些不太了解 AI 世界的人解释一下。你们正在开发一种新型芯片,这种芯片在推理过程中运行 AI,也就是说在运行时使用 AI。 你们并不是在开发用于训练模型的芯片,对吧?你们并不是要与 Nvidia 争夺市场份额,而是在做一些新的事情,对吗?能不能稍微介绍一下你们在做什么?
乔纳森•罗斯(Jonathan Ross):
首先,我们和 Nvidia 都非常友好。实际上我们有一个非正式的协议,如果你买了一个 GroqRack™ 计算集群,他们会优先为你提供最新的 GPU。只要告诉 Nvidia 销售代表你在购买 Groq 的产品,这会非常有帮助。
罗伯特•斯科布尔(Robert Scoble):
硅片是一方面,那么你们的突破是什么呢?为什么你们能在推理时比其他任何人都快那么多?
乔纳森•罗斯(Jonathan Ross):
我们拥有一个完全不同的架构,这就像是问为什么 GPU 能比 CPU 快那么多一样,它们更适合特定的目的。GPU 在并行处理上非常出色,CPU 在顺序处理上非常出色,Groq 在两者上都有独特的优势。 所以如果你需要执行大量计算,而且时间非常紧迫,我们可以做得更快。
对于生成式 AI,它的顺序组成部分是不可或缺的,在预测第 100 个单词之前,你需要先预测第 99 个,第 98 个,以此类推,因此你需要这种序列性的组成部分来确保速度。
罗伯特•斯科布尔(Robert Scoble):
是什么使你的芯片与众不同的呢?什么样的突破让你们取得了进展?显然你们有了重大突破,你们把它放在 PowerPoint 演示文稿中,或者类似的展示方式,然后你们去找风险资本家,获得资金来实现这一切,那么是什么成为了你们的突破点?
乔纳森•罗斯(Jonathan Ross):
我们彻底重构了整个技术栈,所以并不是只有一点儿改变。 你知道,当人们问我我们的秘密武器是什么时,我会说我们没有所谓的秘密武器,我们有 11 种香料和调料。
因为技术栈中有六个不同的环节可能成为瓶颈,第一个是芯片本身,这很明显,这是所有人都在关注的领域。然后是系统,英伟达已经解决了这个问题,其他人则不多见。接下来是编译器,你可以投入大量的努力,但除非采取我们所做的一些措施,否则你不会得到很好的性能。还有运行时、编排层以及网络,这些都必须彻底重构,否则它们就会成为瓶颈。
Google 的著名计算机科学家 Jeff Dean 曾发布过一份文档,列出了每个工程师都应该了解的工程数据和数字。自他发布以来的十年间,许多技术的速度并没有显著变化。
虽然使用磁盘并没有降低延迟,性能也没有显著改善,因此闪存的提升效果也不明显。尽管数据吞吐量增加了,但延迟依然没有减少。在推理过程中,与训练不同,延迟至关重要,这正是顺序组件存在的原因。
因此,我们决定排除顺序组件。我们将 DRAM 当作磁盘来使用,因为它的速度相对较慢。如果我们用 DRAM 运行任何任务,性能都会受到限制。因此,我们像使用磁盘一样使用 DRAM。
实际上,我们确实有 DRAM,在我们的云服务中,大概有一个 PB(Petabyte) 的 DRAM 储存。但我们使用它来存放那些不常访问的数据,比如在毫秒级别的不常用数据,而非微秒或纳秒级别的。SRAM,就是芯片内的存储器,是我们进行所有计算的地方,这才是关键所在。
人们通常认为 Google 是一个网络服务,但他们没有意识到的是,每次输入查询并按下回车键时,这个查询会被成千上万台服务器处理,这正是其速度的来源。 每台服务器只会被使用很短的时间,这使得这种方法经济高效。在 AI 领域,我们也采用了类似的方法,通过并行处理来提高效率。
罗伯特•斯科布尔(Robert Scoble):
这真是太棒了。这是否影响了成本效益呢?许多开发者会思考:我应该在 OpenAI 上使用 ChatGPT 来部署后端服务,还是选择其他服务,比如 AWS?两者的性价比如何对比?
乔纳森•罗斯(Jonathan Ross):
如果使用 GPU,会对性价比产生巨大影响。你需要购买使用 HBM(一种非常昂贵的内存)的 GPU,还需要昂贵的中间件和互连组件。我们简化了系统,因此大部分系统组件都不再需要,这样我们就不必为这些东西付费。
我们在网站上公布的价格是有利可图的,并且我们愿意长期维持这些价格。未来,我们可能会推出更多创新措施,系统简化后成本将显著降低。
然而,主要问题在于能耗。 运行 GPU 的能耗和运营成本(Opex)已经超过了我们的总成本。即使将我们的运营成本(Opex)和资本支出(Capex)合计起来,GPU 的总成本仍然更高。换句话说,即使 GPU 免费提供,其运行成本仍然高于我们的整体成本。
即使 GPU 免费,运行推理任务的成本仍然比在我们的系统上全速运行更高,因为我们的系统专为这种速度而设计。此外,我们的速度还会逐渐提升,虽然只是略微提升,但我们会继续在保持低成本的同时提升速度。
罗伯特•斯科布尔(Robert Scoble):
这将对整个经济产生巨大的影响,因为我们很快就会用这些技术来运行仿人机器人、自动驾驶汽车以及各种新的聊天机器人。这些机器人将为我们带来巨大的新效用和便利。
许多新的开发者正在使用各种模型构建有趣的项目,无论是 OpenAI 的模型,还是 LLaMA 或其他模型。由于你正处于这一切的中心,很多开发者可能会来找你咨询:“嘿,我能用你的推理服务来运行我们的项目吗?”那么,你观察到了什么?从更高的视角来看,你认为 AI 领域正在发生哪些变化?在接下来的一年(2024 年),我们应该关注哪些方面?
超过 ICQ 的增长速度
乔纳森•罗斯(Jonathan Ross):
有趣的是,仅仅 10 周内,我们的封闭测试开发者从 10 人激增至网站上的 175,000 人。 开发者在我们的网站上非常活跃。鉴于你的背景,你应该明白这意味着什么。
罗伯特•斯科布尔(Robert Scoble):
是的,速度非常快。你还记得当年的 ICQ 吗?它在六周内从零用户增长到 65,000 用户,并成为 1996 年最受欢迎的社交软件。所以我用它作为基准,看看你是否能比 ICQ 增长得更快,你们做得很好。
乔纳森•罗斯(Jonathan Ross):
开发者比普通终端用户更难获取。我们的网站上大约有一百万人使用我们的聊天服务,但这些用户主要是开发者。
罗伯特•斯科布尔(Robert Scoble):
那么,从你的角度来看,AI 领域正在发生什么变化呢?在这个行业中,我们应该关注什么呢?
乔纳森•罗斯(Jonathan Ross):
首先,人们仍在努力探索这个领域。我们看到很多非常相似的想法。例如,据我所知,已经有 15 个不同版本的 Perplexity 是基于我们的技术构建的,这只是我们所知道的。 然而,也有一些非常新颖且有趣的项目,虽然它们还没有完全发展成产品,但你可以看到它们的潜力。
我最喜欢的一个例子是无限维基百科,它生成速度极快,可以创建一个维基百科文章,你点击里面的一个链接,它就会立刻生成下一个链接,你可以这样无限地继续下去,仿佛维基百科本身还不够让人沉迷足够长的时间。
但更吸引人的是,我认为首先你会有一个头脑风暴的助手,虽然你不一定完全信任它的结果,但它具有创造性,能够帮助你思考。
下一个阶段将是验证人类的成果,即当 AI 认为某个结果是好的时,你会真正信任它。这是一个逐步发展的过程。
想象一下,当你在调试代码时,如果 AI 能直接告诉你错误所在,并且你只需按下回车键错误就消失了,这将是多么方便。我的心理医生使用 AI 来记录我们的治疗会话,AI 能够捕捉到她没有注意到的细节。因此,当 AI 指出你的错误时,你的防御心理会比人类指出时更少。
刚开始编程时,我的推理能力显著提升,因为整天都有东西在告诉我我错了,而我完全相信它。起初,当编程出现错误时,我还会想:“等一下,我哪里错了?不可能吧!”但最终,我学会了一旦它提示我犯了错误,那就肯定是我错了,这改变了我的思维方式。
我认为,AI 将在更多领域产生类似的影响。最终,我们会开始允许 AI 为我们做一些非常简单的决策。这时我们需要特别注意,因为最重要的是要确保这些决策的正确性和可靠性。我们不应该放弃自主性或决策权,但人类每天能做的决策数量是有限的,否则会产生决策疲劳。如果我们能明确区分哪些决策可以由 AI 来完成,哪些需要我们自己做,就能完成更多任务。
速度改变了计算的价值
罗伯特•斯科布尔(Robert Scoble):
这真是令人惊叹,因为这意味着我们可以更高效地工作。我开始回答粉丝们的问题之前,我有最后一个问题:这对消费电子产品意味着什么呢?我现在使用的就是一台装有 M1 芯片的 Mac,在这个处理器里,有 21% 专门用于 AI 推理。虽然它的速度不够快,但我真希望我的 Macintosh 能内置 Groq 技术,这样我就能在本地非常快速地运行各种 AI 应用,或许还能将其集成到机器人中,让我的机器人可以更快速地与我互动。这是你们的发展蓝图中的一部分吗?还是说你们将一直作为我们雇佣的服务,只存在于数据中心里?
乔纳森•罗斯(Jonathan Ross):
我们确实收到了一些大型公司的类似咨询。虽然不能详细说明我们将做什么或不做什么,但我们的架构是同步的。 当你考虑机器人技术时,从这样的视角出发:假设你戴上了 VR 眼镜,这些眼镜通过摄像头直接将影像传送到你的视野中,让你看到摄像头捕捉到的画面。
现在,我们想在 VR 眼镜上增加一个功能,就是在旁边加一个小旋钮,让你可以调节画面的延迟时间,可以是 0 秒、1 秒或 3 秒。想象一下,如果你在切萝卜时画面延迟了 1 秒或 3 秒,情况会变得有点危险。如果有人向你扔东西,那就更难了,对吧?延迟越长,操作就越困难。
为了更直观地理解,想象一个孩子向你扔球,如果延迟只有一秒,而且他们离得足够远,这并不难。但如果延迟 3 秒,你就必须预判孩子是否会扔球,情况就变得非常复杂了。因此,预测越快,操作越简单,所需的操作次数越少。 这是很多人通常不理解的:运行速度越快,每个操作的效率就越高。这不仅仅是数据宽度的问题,尽管数据宽度也很重要。随着我们超越了 Chinchilla 的最佳性能点,这个问题变得愈发重要。
如果你愿意,我们一会儿可以深入讨论这个话题。但速度改变了计算的价值。 在机器人技术方面,他们通常需要使机械臂,非常沉重,因为这样更容易控制,操作物体时受到的反作用力也较小。但如果你能迅速响应,就可以让机械臂变得更轻,减少能源消耗等等。至于手机,人们经常混淆一些概念,功率是单位时间内传递的能量,而能量是完成任务所使用的总量。
手机虽然是低功耗设备, 但它们在能源效率方面实际上表现更差,这背后有几个原因。首先,给电池充放电是低效的,这是最直接的原因。但还有第二点,很多人忽视了这一点:大多数手机芯片几乎一直是待机状态,只是在等待被激活。 一个现代工厂需要高达一千兆瓦的电力运行,数据中心的功率需求还没有达到这个级别。
那么,在制造那些芯片的过程中,就消耗了巨大的电力,释放了大量的碳。如果你没有充分利用它,实际上对环境的影响会更加恶劣。这就像在城市中运输大量货物时,选择自行车和卡车的区别。虽然自行车的效率较低,但卡车的能效更高,因此你应该选择使用卡车。
对于生成式 AI 来说,数据中心实际上更节能,即使是处理图像也是如此。以语言处理为例,1800 亿次操作仅处理两个字节的数据进出,这种计算需求极其不对称,因此需要高效的计算资源来处理。将数据传输到计算中心进行处理,再发送回来,这样效率更高,速度也更快。就像你进行一次 Google 搜索时,他们会使用成千上万的芯片来处理数据。
当你使用 Groq 时,我们会使用数百甚至数千个芯片,以极低的能耗快速给出答案,因此我们的成本也更低。然后,我们会比本地处理更快地将结果发送给你。
罗伯特•斯科布尔(Robert Scoble):
这意味着你的增强现实眼镜、机器人,甚至自动驾驶汽车都不需要过多担心能耗问题,因此你也无需过多担心这一点。你会注意到,这种车辆使用更少的能量,却能行驶更远的距离。这意味着未来你可以通过自动驾驶出租车赚取更多收入。
乔纳森•罗斯(Jonathan Ross):
自动驾驶车辆有所不同,你需要在车内安装计算机,以确保实时操作。99.99% 或 99.999% 的可靠性是不够的,必须达到 100%。这与当前的情况有所不同。需要指出的是,在现有的自动驾驶汽车中,当车辆遇到无法解决的问题时,会有远程人类驾驶员介入,远程控制车辆并解决问题。
因此,尽管仍然存在远程组件,但当你与系统对话时,语音控制可能会在本地进行,因为你希望计算能够快速响应。现在,你可以在车内设置一个备用系统。虽然它启动时会消耗更多能量,质量也不如远程系统高,理解你的时候也会犯更多错误,但总比没有连接要好。
一切始于一次午餐
罗伯特•斯科布尔(Robert Scoble):
多么令人惊奇的世界啊!你是怎么进入这个领域的?为什么选择了半导体作为你的职业生涯?你这么聪明,完全可以经营一家银行或做其他事业。
乔纳森•罗斯(Jonathan Ross):
一切都始于一次午餐,是的,就是和一群聪明人共进午餐。当时我在 Google 纽约办公室工作,虽然有一些自学的 FPGA 经验,但从未正式上过相关课程。那时,Google 的语音识别团队刚刚训练出第一个超越人类表现的语音识别模型。
在 Google,员工们经常会一起吃午餐。我们在午餐时聊到,他们抱怨 Google Plus(后来叫做 Circles 或其他名字)这个社交平台的问题。我记得那时候有一个内部项目,好像叫做 Emerald Sea 或其他什么名字。这个项目占用了所有的计算资源,导致他们无法发布其他项目。那时候的语音识别软件真的很糟糕。
罗伯特•斯科布尔(Robert Scoble):
是的,李开复在微软早期向我展示了语音识别技术,但即使在安静的会议室里,它也听不懂我说的话。但现在,我们有了像 Whisper 这样的技术,即便是在摇滚音乐会中,你也能和它对话,这太神奇了。
乔纳森•罗斯(Jonathan Ross):
是的,2011 年,我记得在食堂里,他们给我演示了这个软件,尽管周围嘈杂,我说了一些非常复杂的词汇,它却能立刻准确识别。我当时就想,这个东西我们必须要推向市场。于是,我开始着手一个 FPGA 项目。FPGA 是一种可重编程芯片,在设计尚未完全确定时,可以进行多次迭代。这个项目取得了一些不错的成果。
Google 的重要人物 Jeff Dean 向领导团队做了一个演示,结果显示,AI 的效果很好,但成本太高,我们无法承担。然而,我们可以自己制造这些芯片。我们原本打算用 FPGA 来实现,但 Jeff Dean 建议,直接制造芯片可能更好。我们当时想,这应该不会太难吧?
确实很困难,但我们还是做到了。幸运的是,当时我们并不知道有多难,所以我们毫不犹豫地签了约,最终取得了成功。
罗伯特•斯科布尔(Robert Scoble):
我在这个行业中经常听到这样的故事,比如史蒂夫·乔布斯说服我去做一些非常困难的事情。在这个例子中,是 Jeff Dean。哇,我们下一步该怎么继续这个话题呢?因为从某个角度看,你们的业务非常复杂,但从另一个角度看,它又似乎很简单,不是吗?
乔纳森•罗斯(Jonathan Ross):
我们可以稍微偏离一下主题,聊聊我们是如何走到这一步的。其实,我们一直想在云计算领域有所作为。
我有分布式系统的背景,这也是为什么我们不怕使用大量芯片。作为云服务提供商,我们正是通过大量使用芯片来降低成本和提高效率。然而,在进入云业务之前,我们曾尝试销售这些技术以筹集资金,但没有人愿意购买。我们对此感到困惑,因为我们认为这项技术更好。
这让我想起一个故事:一个孩子用三枚一角硬币换了两枚二角硬币,因为他觉得这样更划算。 但许多开发者总是执着于“我可以用更少的芯片完成这个任务”。确实,我可以在 Arduino 上运行这些模型,但这既不经济也不高效。
因此,我们不得不自己开发出了一个 API,供开发者使用。有趣的是,今年年初我们和一些风投进行了对话,其中两家风投特别不理解我们在做什么,他们都是做软件的,完全不懂我们在硬件方面的需求。我当时跟他们说,尽管如此,你们还是应该和我们见见面,因为到年底,我们将成为你们所有初创公司都依赖的平台。
虽然这在当时看起来有些夸张,但如果你理解为什么延迟在所有这些云服务提供商中如此重要,就会明白这一点。就像你在 Netflix 上观看电影或电视剧一样,内容提供商都在强调降低延迟,因为这比任何其他因素都更能驱动用户行为。然而,我们也听到有人质疑,为什么需要如此低的延迟。
我们希望搜索速度能比你阅读的速度更快。有人可能会问,为什么 Google 搜索需要比你阅读的速度更快?因为只有这样你才会愿意使用它。如果搜索结果很慢,你就不会使用它。
罗伯特•斯科布尔(Robert Scoble):
的确,大多数人直到未来真正到来后才会意识到它的重要性。像你这样的人总是领先一步,但其他人则总是慢半拍。我们许多人都在奋力跟上。就像几年前当你跟普通人聊起 AI,他们不明白为什么这很重要,你懂的,他们没有这样的概念,即将来你会和这个东西对话,它很快也会回答你,你还会让它帮你写大学论文,以及做我们现在正在用 AI 做的所有事情。
乔纳森•罗斯(Jonathan Ross):
是的,我在一年半前参加了一次重要的会议,那是在九月,也就是 GPT-3 发布前的那个九月,有趣的是 Tropic 的某位代表来了。他们展示了一个聊天机器人,我四处看了看,却发现没人有任何反应,我心想,大家难道不明白他们在看什么吗?过了一会儿我才意识到,哦,原来他们还没有意识到这项技术的潜力。如果不是你在输入,而是系统直接回应你,你可能不会意识到这并不是预先录制的,这会产生一种认知上的错觉。
因此,当我们开始进行实时演示时,总是会邀请观众中的某个人参与。在世界政府峰会上,我们做了一次语音演示,类似于刚才的演示,但这是去年的版本。演示过程中,观众的反应平淡。随后,我们请了一位在该地区非常知名的记者上台提问,系统回答了他的问题,这时观众中有人惊讶地反应过来。正是在那个时刻,他们意识到系统在回答问题,而且这些回答不是预先录制的。
我们不与 GPU 在训练方面竞争
罗伯特•斯科布尔(Robert Scoble):
是的,AI 真是太神奇了。我的一些读者提出了问题,比如你们是否会开发用于构建模型的计算机,就像许多 AI 公司使用 Nvidia 来训练他们的模型一样。比如,马克·扎克伯格在数据中心里有 30,000 张 H100 显卡。
乔纳森•罗斯(Jonathan Ross):
我们认为 GPU 在训练方面确实很出色,但我们不会在这方面与他们竞争。训练需要并行计算,而不是顺序计算。坦率地说,使用更多的 GPU 进行训练会带来更多的优势。通过使用我们的计算资源进行推理,你可以释放更多资源来专注于我们擅长的事情,反之亦然。
事实上,现在有一些人原本准备购买大量的 GPU,他们仍然会购买这些 GPU,因为他们打算将这些 GPU 全部用于训练。由于 GPU 的分配非常困难,这种需求更加明显。还有一些人已经购买了一些用于推理的 GPU,现在打算将这些 GPU 重新用于训练,并希望使用我们的资源来完成所有的推理任务。我认为这种情况会越来越多,因为我已经多次看到类似的情况发生。
推理过程越多,训练的收益就越大,模型的效用也就越高,从而增加了对推理计算的需求。例如,当 Llama 3 发布时,我们的开发者数量激增,因为模型质量更好,构建应用的动机也更强了。 但这也增加了对进一步训练的需求。
虽然我知道 Nvidia 可能不会这样认为,但 Groq 可能会成为他们股票表现最佳的因素,因为对训练的需求将变得更加难以满足,而 Nvidia 实际上并不直接满足这个需求。有效地降低推理成本将是一个关键因素。我认为他们的股票会变得更有价值。
罗伯特•斯科布尔(Robert Scoble):
这听起来是一个不错的前景。也许有一天你们会被哪个大公司收购。
乔纳森•罗斯(Jonathan Ross):
我们并不寻求被收购,尽管我们愿意交流,但我们的重点是实现目标。
罗伯特•斯科布尔(Robert Scoble):
每个企业家都会说自己要坚持到底并上市,不想被收购,但一周后他们可能就被某个大公司以高价收购。
乔纳森•罗斯(Jonathan Ross):
我们经常被问到这个问题,而我们的回答是——我们专注于实现我们的目标。我们的回应始终如一:如果这真的是你的兴趣所在,为什么不先一起合作,看看能否顺利进行?我们意识到,以我们目前的工作方式,覆盖整个生态系统对我们非常有价值。 一旦他们理解了这一点,就会意识到,虽然仍然希望项目成功,但实际上不拥有它可能对他们更有利。这是我们一直以来的明确立场。
罗伯特•斯科布尔(Robert Scoble):
有人问我们,何时可以在本地进行推理计算?许多企业即使信任云服务,也不愿意将所有数据上传到云端。他们担心数据可能会被未经授权的人访问,或者被用于训练未来的模型,从而导致知识产权泄露。这种担忧促使许多企业倾向于在自己的防火墙内进行数据处理和分析,以便完全控制和监控数据,确保数据不会外泄。
乔纳森•罗斯(Jonathan Ross):
我们提供一些本地解决方案,但在讨论这些之前,我想先说明一点:我们不会存储数据超过一小时。原因是我们既不训练模型,也不创建模型,我们只提供计算资源。 我们也不开发应用程序,仅提供计算资源。因此,除了某些需要计费的数据(如输入和输出的大小)之外,我们不需要其他数据。即使我们想查看,也无法在一小时后访问这些数据。不过,我们确实需要保留数据大约一小时。
由于有些人可能会尝试进行不法行为,我们需要监控情况,但不会存储数据。最后一点是关于本地部署。一些客户需要本地部署的解决方案,但这些解决方案仍由我们管理。如果你需要完全隔离的硬件,可以与我们合作,我们会为你专门分配硬件,其他人无法使用。 虽然这样做的成本较高,因为你需要支付全部费用,但我们在负载均衡方面非常擅长。最终,我们确实为那些需要本地部署的客户提供了解决方案。
我们确实不希望将任何数据传输到外部,但我们会在客户所在的任何地方与他们见面。我们还提供软件和云服务,所以即使你在本地部署,只需调用 API,无论是在云端还是本地,操作都是一致的,无需进行复杂的驱动程序修改等操作。
让每个人都能够使用 AI
罗伯特•斯科布尔(Robert Scoble):
是的,这个问题我们之前已经讨论过了,Nick 提到了在自动驾驶汽车中使用本地推理引擎,你们是否会为某些新兴汽车公司,比如通用汽车,开发一个用于未来车辆的推理计算机,毕竟我们都希望自动驾驶系统能够尽可能迅速地做出反应,以避免发生碰撞,当然希望计算机的处理速度足够快。
乔纳森•罗斯(Jonathan Ross):
这是我们经常被问到的问题,请持续关注。我们的目标是让每个人都能够使用 AI,对于那些在某些情况下难以让 AI 正常工作的人,我们希望能为他们提供帮助。在驾驶环境中,拥有同步和确定性的芯片非常有用,因为输入相同的数据,每次都能得到相同的结果,这非常有价值。
实际上,GPU 在实时或安全关键的情况下并不总是适用,这使得这些场景变得非常困难。尽管这不是我们在市场上的主要重点,但我们确实构建了一些非常适合这些场景的解决方案。
有些人找到我们,表示他们专注于这个市场,问我们能否提供解决方案,让他们在这个市场上推广。我们希望在这方面提供帮助,尽管这不是我们的核心市场,但我们很乐意帮助人们实现这一目标。
罗伯特•斯科布尔(Robert Scoble):
正如你所说,自动驾驶出租车的一部分功能并不在车内。你需要一个系统来管理车辆,跟踪道路上的坑洼、拥堵情况以及人群分布,并决定车辆的行驶路线等。这些交通控制任务今天就可以在 Groq 系统上实现,数据处理则在数据中心进行。那么,你是否已经对 Elon Musk 的名字感到厌烦了呢?Elon Musk 有一个叫做 Grok(带 k)的 AI,而你们的是带 q 的,你们会起诉 Elon 吗?还是你们会保留两个名字,然后处理这个问题?
乔纳森•罗斯(Jonathan Ross):
我认为这里真正重要的是,我们遵循社会规范。我只想说,我们抢先一步,我们最先宣布,我们做得最好,它是我们的。我们还拥有商标,我们已经发出了停止侵权令,我们已经在线发布了版本,我们是 Groq,不应该有其他类似的名称。
罗伯特•斯科布尔(Robert Scoble):
是的,你们将上法庭,由法院裁定。
乔纳森•罗斯(Jonathan Ross):
我们希望 Elon 能尊重这一点。如果他想做一个正直的人,他应该能理解。如果他不理解,我们将不得不采取其他措施。
罗伯特•斯科布尔(Robert Scoble):
我希望你们两家都能保留你们的名字,我觉得这很有趣,我认为它对我们双方都有益处,不过这只是我个人的想法。我们已经讨论过技术了,比如为什么 Llama 在这个平台上运行得更好,你有没有注意到你们的客户都在使用 Groq 做些什么?他们都在运行 Llama 吗,或者说,你有没有一份特别偏爱的模型列表?
乔纳森•罗斯(Jonathan Ross):
有趣的是,无论我们在硬件上运行哪个模型,硬件资源都会被完全占用。人们确实想要使用这些模型。例如,有一个模型,我不便透露具体名称,在其他地方几乎没有人使用,但在我们这里却有很多人使用。这个模型的速度使它变得很有趣。当然,也有一些客户有他们偏爱的模型。
例如,当 Mixol 发布时,它超越了 Llama 2;而当 Llama 3 发布时,它又超越了 Mixol。因此,人们的总体偏好变化得非常快。他们从 GPT-4 切换到 Groq 上的 Llama 3(70 亿参数)后,用户的会话时长从大约 18 分钟增加到了 31 分钟。 这是一个巨大的提升,尤其考虑到 Llama 3 的质量非常接近当前的 GPT-4,但还略有差距。所以很明显,这完全是速度带来的影响。
有时候,当我在做演示时会发现,演示已经结束了,但旁边的人却不知道,因为他们一眨眼的功夫就错过了。这实际上是个问题,因此我不得不重新演示一遍。
乔纳森•罗斯(Jonathan Ross):
所以,这种速度带来的变化是戏剧性的,但在应用层面上,人们正在开发那些确实需要快速处理能力的应用,很多语音相关的应用都极大地受益于这种速度。当延迟稍微增加时,用户的参与度会降低;而当延迟较低时,用户的使用频率会显著提升。
目前,通过我们的平台已经构建了大约五个非常优秀的服务和二十个使用语音技术的服务。如果你访问我们的 Discord 频道,会发现一个专门的频道,用户可以在上面发布他们使用 Groq 构建的应用程序。浏览这些应用程序非常有趣,人们构建了大量内容,真的很有意思。
保持团队的小规模
罗伯特•斯科布尔(Robert Scoble):
德·莫拉提了一个有点奇怪的问题,他想知道你最喜欢的编程语言是什么,以及为什么是 Haskell。
乔纳森•罗斯(Jonathan Ross):
我通常愿意承认 Haskell 是我最喜欢的编程语言,这并不奇怪。我们先从 Haskell 开始,然后再深入讨论其他语言。我喜欢 Haskell 的原因之一是我不喜欢花费大量时间在调试问题上。我希望编程语言能在我犯错时立即提示我。 在编写 Haskell 代码时,我通常每写一两行就会进行类型检查,因为它的类型系统非常强大。我几乎不需要查看错误信息,因为当它提示错误时,我已经知道问题所在。
在编写代码时,你可以在 Haskell 中插入一个名为 `undefined` 的标识符,它能够通过类型检查。我不需要它告诉我错误,因为我知道自己刚刚犯了错误,这样可以加快编程速度。另一个例子是,我曾经构建过一些大型分布式系统,调试这些系统非常痛苦。我记得在写 C++ 或 Python 代码时,如果编译通过并且单元测试也通过了,我会觉得有些不对劲,因为单元测试几乎从未通过。
初次使用 Haskell 时,情况恰恰相反。如果单元测试没有通过,但代码编译成功,你会想:“单元测试哪里出问题了?”因为代码编译成功通常意味着代码是正确的。
我最喜欢的语言是 Agda。你可能会问,Agda 是什么?Agda 可以被看作是 Haskell 社区和活动报告(HCAR)中的一种更高级别的语言。对于开发者来说,Haskell 已经是一种非常独特的语言,而 Agda 则更进一步。每个函数都涉及到罗素悖论(Russell’s paradox)等复杂概念。例如,如果你插入某个元素,然后稍后查找,它仍然会存在。代码不会编译,除非它被删除。
我看到有人实现了一个版本的快速排序算法,如果其复杂度不是 O(n log n),代码就不会编译。是的,如果不满足这个条件,代码就不会编译。所以,如果你真的希望代码是正确的,可以考虑学习 Agda,这是一门非常有趣且酷的语言。
罗伯特•斯科布尔(Robert Scoble):
最后几个问题,谈谈你的公司,现在有多少人在那里工作?
乔纳森•罗斯(Jonathan Ross):
我们大约有 220 名员工。这个数字其实经常变动,这周我们又有新人加入。但我们一直保持精干高效。
在芯片、系统、网络、运行时、编译器和编排方面,我们都进行了工作,同时还在云端进行操作。我们通过 220 人的团队完成了这些任务,而且速度更快,很多方面做得更好、更节能。这正是我们能够成功的原因。
如果我们有更多的人手,反而无法完成那些违反直觉的任务。违反直觉的任务只能由小团队完成,团队越大,实现这些目标就越难。团队规模越大,你所构建的东西就越容易与他人构建的东西趋同,因此需要保持团队的小规模。
罗伯特•斯科布尔(Robert Scoble):
我讨厌委员会。在 Microsoft 工作时,我见识过委员会如何让一切变慢。如果有人想模仿我们,他们可以组建一堆委员会并迅速扩张。我曾经遇到过 SpaceX 的第四位员工,问他关于让火箭降落在驳船上的团队情况。他说那不是一个团队,而是一个人完成的。我惊讶地问:“一个人怎么能完成这一切?”他说:“是的,他与其他人合作,但主要是由一个人负责。”所有控制火箭返回地球的操作都需要精确执行。
乔纳森•罗斯(Jonathan Ross):
与一群非常有才华的人一起工作也非常有趣。我们的团队中有曾将 AWS 从 2 个数据中心扩展到 200 个的成员,还有 AWS 的首任 CFO,以及一批早期的 Google 员工。这些人都有丰富的经验,但非常谦逊。这点非常重要,因为如果你雇佣了自负的人,他们会排挤其他优秀的人。因此,你需要一个完全谦逊的团队。我们正在寻找那些谦逊且非常优秀的人才。
罗伯特•斯科布尔(Robert Scoble):
我就不适合加入你们了,因为我的自尊心太强了。你是怎么面试这种特质的呢?
乔纳森•罗斯(Jonathan Ross):
我不确定这是不是最有效的面试方式。我们确实非常努力地在雇佣那些谦逊的人。
罗伯特•斯科布尔(Robert Scoble):
那么,你们是如何判断一个人是否谦逊的呢?你们会问些什么问题呢?
乔纳森•罗斯(Jonathan Ross):
当候选人要求一个很高的职位时,这可能是第一个不谦逊的迹象。如果他们要求一个庞大的团队,你可能会觉得他们在“建立自己的王国”,这也可能是不谦逊的表现。你还可以观察他们是否愿意亲力亲为。我还会通过一些特定的问题来判断他们的谦逊程度。
我们不会在这里分享非常具体的内容,但我们也关注所谓的“运气的回报”。很多人会遇到机会,但他们不会做出反应。我们开玩笑说,在面试时会把候选人分成两堆,扔掉一堆,剩下的就是幸运儿。当然,我们并不会真的这样做。
罗伯特•斯科布尔(Robert Scoble):
我在微软和其他公司面试时遇到了各种稀奇古怪的问题,但我能想象到,谦逊这个特质是很吸引人的,它一直很重要。谦逊确实很关键,但做到谦逊并不容易。有时候,特别是当你做对了事情时,这会让你有发言权。
乔纳森•罗斯(Jonathan Ross):
但我们认为,你过去的做事方式并不重要,重要的是你为什么这么做。
罗伯特•斯科布尔(Robert Scoble):
能不能谈谈一些背景情况?你们是如何融资的?你们是如何筹集资金来开展现在的工作的?因为芯片的成本高达数亿美元。在硅谷,这可是个天文数字。
乔纳森•罗斯(Jonathan Ross):
是的,开发芯片可能只需要几亿美元,这在硅谷曾经是天文数字,现在情况更糟,因为几亿美元只是开始。最近有超过 100 家芯片初创公司获得了投资,但大多数风投可能没意识到,仅仅起步就需要大约 1 亿美元。然后你尝试进入生产阶段,接下来就是数十亿美元的投入。
所以大多数人不理解他们所涉足的领域,看到这些芯片初创公司,可能会觉得,投资 1000 万美元就很不错,然而,他们很快就会发现这笔钱远远不够,因为这甚至不足以购买一个光刻掩模。确实,购买一个新的光罩需要花费数千万美元。然而,实际上只有少数公司能够真正将产品推向市场。这些公司的目标是实际部署产品,而不仅仅是进行科学展示。这就像小海龟,只有少数能够成功孵化并生存。
有趣的是,当我们刚开始时,我完全没有打算重返半导体行业。当时我在 Google X 的快速评估团队工作。这是团队提出各种创新想法的地方。我曾在 Google 开发 TPU(张量处理单元),随后加入 Google X,开始从事机械工程、生物工程、AI 项目以及更多与芯片相关的工作。我原本计划在形式化推理和 AI 领域进行研究,并在分类模型的质量方面取得了一些突破。
然而,一位风险投资家问我,如果你能重新开发 TPU,你会做哪些不同的改进?我回答说,我会让软件更好地发挥其潜力。他们对此非常感兴趣,想了解更多细节。我就把我之前的经历告诉他们,他们觉得这个问题值得解决,问我能不能做到。我说,可以,我可能会从编译器开始。他们给了我 1000 万美元,让我去实现它。
首先,我们搞定了一个可用的编译器,并展示了我们可以围绕这个编译器构建芯片架构。接着,我们获得了剩余的资金支持,并开始全速推进。这体现了一个根本性的理解差异。 大多数人是先设计芯片,然后再设计软件,并声称他们在进行软硬件协同优化。
因为他们会根据芯片的设计调整软件。但这就像是让汽车修理工而不是赛车手来设计汽车。你希望是赛车手来设计汽车。
我是一名软件工程师,我的目标是让自己的工作更轻松。我们在芯片设计中做了很多决策,这些决策虽然增加了芯片设计师的难度,但却让软件和编译器的工作变得更容易。正是因为这样,我们才开始了这个项目,并且取得了不错的成果。我们因此能够筹集资金,现在我们拥有了世界上最快的 AI 芯片。
它使用的是在美国制造的、按技术标准来看已经相当陈旧的硅片,这是其他公司无法做到的,真是太令人兴奋了。
罗伯特•斯科布尔(Robert Scoble):
晶圆厂实在是太神奇了,我参观了英特尔在俄勒冈州的晶圆厂,那里的设备无疑是我见过的最复杂的机器,无论是机器规模、建筑物规模,还是设备数量,都令人惊叹。
乔纳森•罗斯(Jonathan Ross):
你知道,每家英特尔的晶圆厂,他们都会把空气管道设置在相同的位置,即使有时候这些管道并没有被使用。他们希望环境保持极其一致,因为就算房间里多了一个物体,他们都担心会影响到晶圆厂的运作。
谈到晶圆厂的运作方式,有一个关于 Cray 的故事发生在 20 世纪 80 年代。当时,他们发现芯片的良品率非常低。那时的芯片远没有今天这么复杂。他们注意到,每当厨房里爆米花的时候,芯片的良品率特别低。原因是爆米花产生的微粒进入空气中,影响了芯片的制造。
罗伯特•斯科布尔(Robert Scoble):
我父亲曾从事半导体制造工作,并带我们参观过无尘室。无尘室必须保持极高的洁净度,否则会影响良品率。
乔纳森•罗斯(Jonathan Ross):
毕竟,芯片上的导线比灰尘颗粒还要小。这些粒子就像高速飞行的巨石。如果一颗尘埃粒子撞击到它们,可能会导致严重的损坏。现代技术非常先进,甚至不再使用传统的光源。
极紫外光(EUV)技术非常先进,他们会投放锡颗粒并将其汽化,产生大量的电磁辐射。其中一些辐射更接近 X 射线而非 EUV,但他们仍称其为 EUV。然后,这些能量被重新聚焦,击中目标。它释放了大量能量,可能会损坏芯片的部分,就像高能激光,但实际上是类似 EUV 的 X 射线。这种技术涉及非常复杂的物理原理。参与其中真是令人兴奋的时刻。
罗伯特•斯科布尔(Robert Scoble):
关于当前的情况,有什么我应该问但还没问的吗?
乔纳森•罗斯(Jonathan Ross):
嗯,我认为对我们最重要的是我们的扩展能力。回到扩展这个话题,当你考虑制造这些芯片时,还需要引入各种组件。如果你在制造 GPU,可能会使用高带宽内存(HBM)、中介层(interposer)或片上系统(SoC),以及超级电容器。
现代 Nvidia GPU 的功耗大约是一个家庭平均用电量的两倍,这简直令人难以置信。在如此小的空间内,高电流和电压波动会导致各种问题,GPU 因此频繁出现故障。再加上散热问题,即使你解决了这些问题,你仍然需要购买那些非常高端且稀缺的互连设备。实际上,我们开发了一种不需要这些复杂技术的解决方案。
未来一年半内的所有高带宽内存(HBM)已经被预订一空,每一块即将生产的 GPU 也都已经被预订。 组件已经全部分配完毕,不会再有新的供应,不论制造商是谁。例如,如果你是 AMD 公司,即使你的 GPU 性能更好,但如果没有购买足够的 HBM(高带宽存储器),你也无法生产足够的产品。因此,在 Groq,我们不依赖这些组件,而是为全球构建了一个替代的 AI 供应链。
到 2025 年底,我们可以将全球的 AI 推理计算能力提高一倍。没有我们的努力,这一切都不可能实现。因此,我们不仅仅是将 AI 能力翻倍,这将使程序运行更快,能够构建以前无法实现的应用程序,而且成本更低。
罗伯特•斯科布尔(Robert Scoble):
所以很荣幸能与你见面并进行这次对话,你正在改变世界,真是太棒了,祝贺你。人们该在哪里了解更多关于 Groq 的信息呢?请注意,是带 Q 的 Groq,不是 K。
乔纳森•罗斯(Jonathan Ross):
Groq 带一个 Q,请访问我们的 Discord 频道,我们的团队一直在那里,我有时也会加入,虽然我还没告诉大家我的用户名是什么,但我会时不时地回答问题。如果你访问我们的网站 Groq.com,你会看到一个 Discord 的图标,点击它就可以加入我们,随时开始交流。