本次访谈来自红杉资本播客,访谈对象是 Meta 生成式 AI 产品管理总监 Joe Spisak。Joe Spisak 在 AI 领域有着丰富的经验,曾在 PyTorch 担任产品负责人,并参与了多个从蛋白质折叠到 AI 数学研究的项目,其中许多项目已经从 Meta 分拆成独立的初创公司。此次访谈围绕着 Llama 3.1 405B 的发布展开,讨论了开源生态系统的未来走向、模型商品化的可能性、模型开发与软件开发的相似性,以及在代理推理、小模型和数据等方面的下一步计划。
自成立以来,Meta 在生成式 AI 领域取得了显著成就,开发出多个标志性项目。现阶段,Meta 不仅专注于大规模语言模型的开发,还广泛涉足开源生态系统的建设。Joe Spisak 在访谈中首先澄清了他对开源的重要性的定义,指出开源不仅仅是共享代码,而是重新审视工程工作,思考如何进行语言模型运维、数据微调、构建检索增强生成模型(RAG)以及使用 API 等工具。他提到,目前的开源模型在某些具体任务上表现出色,但距离全面超越封闭模型还有一定距离。Joe Spisak 的核心观点包括:
- 开源模型迫使开发者重新审视工程工作,掌控模型运维、数据微调和工具使用,最终实现对模型的全面控制。
- 社区反馈和内部需求推动了模型功能的改进,特别是长上下文和多语言支持,确保了高质量的后期训练和安全性。
- 零样本工具使用将成为游戏规则改变者,允许模型调用代码解释器和构建插件,显著提升模型的实用性。
- 开放许可的决定是为了消除使用障碍,促进社区广泛应用和构建,确保模型的广泛采用和创新。
- 开源模型面临的挑战包括盈利问题和与低成本解决方案的竞争,但更多公司参与有助于生态系统的健康发展。
- Llama 3 的创新包括分组注意力和合成数据的使用,显著提高了模型性能和推理时间。
- 训练大规模模型需要强大的信息团队和机器学习系统,确保在大规模计算资源下的稳定性和性能。
- 模型开发越来越像软件开发,强调模块化和持续迭代,以实现不断的改进和创新。
以下是本期播客内容的完整翻译,我们作了不改变原意的删减。
Llama 3.1 405B 的发布
乔伊·斯皮萨克(Joe Spisak)
如果我是创始人,我一定会选择开源。 开源迫使我重新审视我的工程工作,并思考如何进行语言模型运维(LM ops)、数据微调、构建检索增强生成模型(RAG)以及使用 API 等工具。有许多 API 可以帮助实现这些功能,但最终你还是希望掌控一切。你的模型代表了你的数据,也是你与用户互动的桥梁。
斯蒂芬妮·詹(Stephanie Zhan)
大家好,欢迎来到 Training Data 频道。今天我们非常荣幸地邀请到了 Meta 生成式 AI 产品管理总监 Joe Spisak,他负责领导 Llama 和第三方生态系统的工作。Joe 在过去十年中一直致力于 AI 领域,曾在 PyTorch 担任产品负责人,并参与了从蛋白质折叠到 AI 数学研究的多个项目,其中许多项目已经从 Meta 分拆成独立的初创公司。
我们在 Llama 3.1 405b 发布后的第二天与 Joe 进行了对话,期待听到他对一些问题的看法,比如开源生态系统的未来走向?即使在前沿领域,模型是否会商品化?模型开发是否越来越像软件开发?以及在代理推理、小模型、数据等方面的下一步是什么?Joe,非常感谢你今天能来。我们很高兴在 Llama 3.1 405b 发布后的第二天与你交流。这对生态系统来说是一个了不起的礼物。我们很想了解更多关于你对 3.1 405b 的具体能力的看法,特别是与其他最先进的模型相比,它有哪些独特之处?
乔伊·斯皮萨克(Joe Spisak)
非常感谢邀请我。这真的很令人兴奋。在疫情前,我曾在南方做过类似的播客,所以能在同一个房间里聊这些酷炫的东西真的很有趣。我们对这个项目非常兴奋,Llama 是我们许多人长时间以来一直在努力的项目,已经有几个月了。四月份我们推出了一个小小的“开胃菜”,大约是第 3 版。当时我还在想,人们真的会对这些模型如此兴奋吗?结果他们的反应非常热烈。大家都很兴奋,但他们真的不知道接下来会发生什么。所以我一直在保密,然后为这次发布做准备。
405B 是一个庞大的模型,非常具有创造性。我认为我们从 405B 中学到的最大的一点就是它是一个巨大的教师模型,可以用来改进小模型或者进行蒸馏。 这一直是我们的计划。当你有一个大模型时,你可以用它来改进小模型,这就是 8B 和 70B 成为优秀模型的原因。
在功能方面,我们听取了社区的意见,也听取了我们自己产品团队的意见。因为我们必须为 Meta 构建产品。长上下文是人们最想要的功能之一。我们内部有比发布的更大的上下文容量,但我们看到了用例的增加,尤其是多语言支持。我们是一家全球公司,所以我们发布了更多的语言,未来还会有更多。显然,Meta 平台上有数十亿用户,覆盖数百个国家。所以我认为这些是基本要求,但我们在模型上做得非常好。我们在不同语言的后期训练和安全性方面投入了大量时间,确保高质量。我们不仅仅是预训练大量数据然后说我们是多语言的。我们在监督微调(SFT)阶段和安全性方面做了很多工作。
我最兴奋的事情之一是工具使用。有几件事让我兴奋,但其中之一是工具使用。我认为这些模型,零样本工具使用,这对社区来说将是疯狂的。我们展示了一些例子,比如调用 Wolfram、Brave 搜索或 Google 搜索,效果非常好。但零样本工具使用将是一个游戏规则改变者。能够调用代码解释器并实际运行代码,或者构建自己的插件,比如 RAG(检索增强生成)等,将达到最先进的水平。 我认为这将是一个巨大的游戏规则改变者。而且我们发布了 405B,并更改了我们的许可证,所以你实际上可以使用我们的数据,这是一件大事。我们与马克进行了多次会议,最终达成了一个共识。这对社区来说是一个长期的痛点。他们说这些封闭的模型,我不能使用输出,或者我可能实际上可以使用它们,但可能是稍微不道德的。我们实际上鼓励人们使用它。
斯蒂芬妮·詹(Stephanie Zhan)
我相信做出这个决定一定非常艰难。请向我们讲述一下你需要考虑的因素,以及你是如何迈出这一步,选择以这种方式开放许可的。
乔伊·斯皮萨克(Joe Spisak)
许可问题本身就是一个非常复杂的话题,可能需要整期节目来讨论。虽然我不想这样,但我们可以简单探讨一下。我认为我们首先要做的就是探索新事物。比如,我们希望通过 Lama 3.1 模型的多个版本,为人们提供新的能力。我们观察到社区中人们真正感兴趣的东西,不仅限于企业和产品,还有研究领域。我们有一个研究团队,与学术界合作并交流。比如,普莉西拉·斯坦福经常问我,什么时候发布,发布后我能使用吗?我会告诉她,请耐心等待。但我认为我们听到了他们的声音,知道他们的需求。最终,我们希望 Lama 能被广泛应用,全球范围内被采用并在其基础上进行构建。
我认为 Mark 在他的信中也提到过,他说这是新的标准。所以,要实现这一点,你必须启用相关功能,对吧?你必须消除所有使用障碍,真正了解社区的需求,并确保没有人为障碍。这就是讨论的核心。 实际上,我们更进一步,开始与 Nvidia 和 AWS 等合作伙伴合作,他们开始构建蒸馏配方,甚至是合成数据生成服务,这非常有趣。你可以开始使用这些服务,从中创建专门的模型。我们知道数据质量有多高,因为我们在较小的模型中使用过它。数据质量非常高,并显著提高了我们的创作者模型的性能。
开源争议及模型商品化
桑娅·黄(Sonya Huang)
我想再多谈谈开源这个话题。好的。我读过扎克的宣言,写得很好。但我还是有些困惑,想弄清楚 Meta 从中能得到什么。这是一个巨大的投资。开源在某种程度上意味着你投入了大量资金,因为你现在有一个最先进的模型,并且免费提供给大家。所以我想问,这是一个进攻性的举动吗?还是一个防御性的举动?Meta 从中能得到什么?
乔伊·斯皮萨克(Joe Spisak)
我们的商业模式并不依赖于这个模型直接为我们赚钱。我们不销售云服务,也不是一家云公司。我们一直在与合作伙伴生态系统合作。回顾我在过去五年里帮助领导 PyTorch 的经历,生态系统和社区逐渐围绕它建立起来。我们从未构建过服务,虽然我们可能在某种程度上可以做到,但那样做会显得很奇怪。回到 PyTorch,我们把它看作是一种通用桥梁,连接到这个充满变化的领域。虽然听起来有些奇怪,但确实有很多创新在发生,我们需要建立一个桥梁来利用这些创新。实现这一目标的方法就是开放,让全世界在我们的平台上进行构建。 我认为这种精神也延续到了 Llama 上。
如果你看看 PyTorch,当我们真正开始专注于计算机视觉和卷积神经网络(CNN)时,它为我们提供了一个巨大的平台。你还记得那些早期的时光吧。我们会看到这些架构不断涌现,人们编写代码并在 PyTorch 上发布。我们会内部评估这些开源模型,并将它们发布在模型库上。我们看到社区的改进速度非常快,尤其是在我们发布仇恨言论数据集等完整性工具时,每周、每月都有显著的进步。这些改进基于我们内部使用的东西,所以我们很容易将其内部化。
我认为 Llama 在这方面也很相似。当学术界和公司开始对这些模型进行红队测试或生成它们时,我们希望人们对我们的模型进行测试,以便我们改进。当然,这有点像“心想事成”的风险。但就像 Linux 一样,Linux 是开源的,内核也是开源的。人们会发现它更安全,因为透明度高,漏洞可以更快地修复,这对我们帮助很大。我们不希望这个生态系统变得完全封闭。就像今天的 Linux 和 Windows,我认为两者都有存在的市场,取决于人们的需求和应用。我认为未来会有开放模型和封闭模型的共存,这完全没问题。
桑娅·黄(Sonya Huang)
反对开源的主要论点是什么?真的存在这样的论点吗?
乔伊·斯皮萨克(Joe Spisak)
确实存在一些竞争方面的顾虑。我们讨论过是否要将你的技术公开等问题,但我认为我们对此的担忧较少,因为我们的进展非常快。回顾过去,我在 Meta 已经工作了大约六七年。在这段时间里,我们做了很多事情,比如发布了 Connect,去年十二月发布了 Purple,之前发布了 Llama 3.1,七月发布了 Llama 2,而 Llama 1 则是在二月发布的。考虑到我们的创新速度,真的是非常惊人。我们团队和公司的创新速度现在简直是疯狂的,所以我对此并不太担心。
斯蒂芬妮·詹(Stephanie Zhan)
我想了解你对整个生态系统的看法。很多人关心的问题集中在这些模型的价值变化,特别是在 Meta 开源更多先进模型(如 Llama 3.1)以及 OpenAI 推出 GPT 的情况下。你认为即使在前沿领域,模型也会商品化吗?
乔伊·斯皮萨克(Joe Spisak)
这是一个很好的问题。如果你看看过去两周的情况,Mini 模型表现非常出色。处理每百万个 token 的成本大约是 15 美分,生成输出的成本是 60 美分。因此,运行成本非常低,但它也是一个非常优秀的模型。他们在提炼和优化方面做得非常出色,性能优异且成本低廉。所以我认为,Sam 确实在推动这一领域的发展。看看我们上周的工作,推出了一些非常有说服力的模型。我确实认为,模型正在迅速商品化。
在数据方面,我们可以从互联网上收集数据,也可以获得数据许可,但在某些时候会遇到一些限制。我认为 Robin 提到的这一点回到了我们的讨论,我们对数据、规模和计算有了更好的理解。这是否足够?可能还不完全够,但如果你有足够的计算和数据,你可以得到一个接近最先进水平的初步近似,这是我们所看到的。所以我确实认为模型正在商品化。我认为价值在其他地方。
我审视 Meta 和我们的产品,审视我们正在构建的东西。对我们来说,真正的价值在于 Meta AI 和我们的代理技术。 我们将这些技术应用到 Instagram 和 WhatsApp 等所有终端产品中,这才是我们真正实现货币化和增加实际价值的途径。模型本身肯定会继续在新模式、新语言和新功能方面创新。这就是研究的意义,不断推动新兴能力的前沿,然后我们可以在产品中利用这些能力。但模型确实在朝这个方向发展。
斯蒂芬妮·詹(Stephanie Zhan)
如果是这种情况,所有已经拥有大规模分发和出色应用的公司都可以直接采用最先进的模型。那么,你会给那些试图崭露头角的初创公司什么建议呢?这些初创公司要么构建自己的模型,要么使用现有的最先进模型,然后在其基础上开发应用。
乔伊·斯皮萨克(Joe Spisak)
确实,有些公司在构建和训练基础模型,这非常昂贵。我不能透露 Llama 3 的具体成本,但它确实非常高。而 Llama 4 的成本将会更高。因此,考虑到当前的情况,如果我是一个初创公司,我不会尝试进行预训练。我认为 Llama 模型实际上是一个非常出色的基础,可以在其上进行构建。所以,如果我是现在的创始人,我绝对会选择开源。 这会迫使我关注工程工作,比如需要有人进行语言模型运维(LM ops),以及数据微调和如何构建检索增强生成(RAG)等工作。还有很多 API 可以帮助实现这些功能。
但最终你会希望拥有控制权。你的模型是你的数据,你的模型是你与用户的互动。你可能还希望将这些东西部署到设备上,并进行某种混合互动。你可能希望在设备上运行一些简单的查询,以实现非常低延迟的用户互动。你可能希望将更复杂的查询和互动分配到云端进行处理。我认为开源方法给了你这种灵活性。它让你可以直接修改模型,你拥有权重,可以自己运行和蒸馏这些权重。现在已经有蒸馏服务,可以将你的权重缩小,这非常棒。我们刚刚看到这种服务的开始。
所以在我看来,控制权和权重的所有权非常重要。 有很多 API 服务可以让你微调模型,你可以带上自己的数据进行微调,他们使用一种叫做低秩适应(LoRA)的技术。不幸的是,最终你无法访问这些低秩权重,你被迫使用他们的推断服务。这样的话,你就像是“你好,我把我的数据给了你,但我无法访问从这些数据生成的实际知识产权,现在我被迫使用你的推断服务。”这不是一个好交易。所以我认为,开源带来了固有的自由,而这种方法没有。
桑娅·黄(Sonya Huang)
你怎么看待 Mistral 的发布?我觉得可能是在发布后的第二天,Llama 3 和 3.1 也发布了。你怎么看待这些?我想更广泛地问一下,对于所有处于前沿的人来说,大家是否都在追求相同的配方、相同的技术、相同的计算能力和大规模数据等。所以,你认为在前沿领域,大家的研究方向会大致相似,还是你觉得你们在做一些非常不同的事情?
乔伊·斯皮萨克(Joe Spisak)
关于Mistral,这支队伍很棒。这是我在 FAIR 的老团队之一。他们致力于改进人工智能和数学。Guillaume和Tim以及他们的团队,还有Marianne,都非常了不起。
乔伊·斯皮萨克(Joe Spisak)
这是我曾经合作过的最拼命的团队之一,我觉得他们几乎不睡觉。他们会在城市的某个地方进行 AI 和热力学方面的改进。白天我们会发布一些相关的工作。我记得这是几年前的事。到了晚上,他们就会抓紧时间使用计算资源来训练顶级模型。几年前我们在 FAIR(Meta AI 研究院)就开始构建大语言模型。那个团队非常有野心,晚上也在努力工作。Llama 1 就是这样诞生的。这个团队非常出色,我认为他们的工作非常好。
他们面临的挑战是既要开源模型,又要盈利。像 4o mini 这样的模型对他们帮助不大。这也是他们改变许可证的原因,比如最初的研究专用许可证。这是有道理的,因为他们开源模型后,自己的生态系统在很多方面与他们竞争。他们发布一个模型,托管它,鼓励使用这个模型,但同时也有 Together、Fireworks 和 Lepton 等公司提供更低成本的解决方案。这使得现在的业务非常艰难。
关于 Large 2,我认为这是一个非常好的模型。虽然我们还没有内部评估过,但从纸面上看,它表现不错。如果你看人工分析,它的质量略低于 70B 模型,但这是通过综合多个基准测试得出的结果。我们会进行评估。对我来说,模型越多越好。更多的公司参与进来是件好事,我们不会是唯一的参与者,这样更好。总体来说,在生成式 AI 领域,每天醒来你都会期待一些新模型的发布或突破性的事件发生,这也是这个领域的乐趣所在。
所有前沿战略都类似吗?
桑娅·黄(Sonya Huang)
你认为所有在前沿领域工作的人都类似吗?例如,你们是否都在追求类似的策略?
乔伊·斯皮萨克(Joe Spisak)
这是一个很好的问题。如果你读过 Llama 3 的论文,你会发现它有 96 页,引用了大量文献,显然有很多贡献者和核心贡献者。因此,这是一篇非常详细的论文。团队中的 Lawrence 和 Angela 主导了这篇论文的撰写,我认为这可能是最困难的部分。相比之下,开发模型相对容易,而撰写论文则需要大量的工作。
我认为,如果你看 Llama 3,会发现有很多创新,但我们并没有承担太多的研究风险。我认为我们在 Llama 405B 上主要的工作是推动模型的规模化。 我们创建了分组注意力(GQA),这改善了推理时间,并帮助解决了注意力计算中的二次方挑战。我们在训练中使用了超过 15 万亿个标记。在后期训练中,我们使用了合成数据,这显著提高了较小模型的性能。我们在训练过程中使用了超过 16,000 个 GPU,这是我们以前没有做过的。这非常困难,因为 GPU 会出现故障,需要解决这些问题。
乔伊·斯皮萨克(Joe Spisak)
大家都说,要训练成千上万块 GPU,祝你好运。你最好有一个非常出色的信息团队和机器学习系统。你必须准备好在这个层面上进行创新,因为这并非易事。很多人说这很简单,或者说你可以做到,但实际上并不简单。所以我认为,Llama 3 和 GPT-3 的论文非常相似。如果你曾经和 Tom 谈过,他是被裁员的 Tom Brown,现在任职于Anthropics。Tom 是那篇论文的第一作者,因为很多创新实际上是在规模上实现的。
问题在于,如何将一种架构推到极限?这涉及到很多分析层面和基础设施层面的问题,以及如何扩展算法。所以我认为这就是我们对 Llama 3 和 Llama 3.1 的态度。显然,我们内部有一个出色的研究团队。我们有 FAIR,我们在组织内部进行研究,并且我们在研究许多不同的架构、MoE(专家混合)等。所以,我认为我们不知道最终会有多少候选架构,但我们正在研究它。这是一种权衡,是在研究中承担多少风险以及潜在的回报或改进的上限之间的权衡,还是选择相对已知的东西并推动规模,使其进一步改进。所以最终,这成为了一种权衡。
斯蒂芬妮·詹(Stephanie Zhan)
我觉得这个观点很有趣,也认为这使得 Llama 和 Meta 的策略显得相当独特。昨天我们讨论过,模型开发是否正在变得越来越像软件开发?我很好奇你是否也有同样的看法。我认为,与许多其他实验室推动更多研究不同,你们一直专注于执行已知有效的策略。你认为这种策略在你们扩展 Llama 到 4、5、6、7、8 时会继续有效吗?另外,你认为其他研究实验室和生态系统中的一些初创公司会如何反应?他们会不会也转向你们的策略?
乔伊·斯皮萨克(Joe Spisak)
我认为这是一个非常好的问题。虽然我们没有所有的答案,但目前的情况大概处于中间地带。我们会继续推动模型的执行和发布,因为我们希望产品能够不断迭代和改进。因此,我们希望 AI 能够持续进步。在这个过程中,确实有点像软件工程。你可以把它想象成一列火车,不断有新的功能和能力加入,然后我们发布新的模型版本。
当你开始将能力组件化时,实际上也会容易得多。我们现在就在做安全方面的工作。你在发布中也看到了这一点。我们发布了 PromptGuard 和新的 Llama Guard,你可以从外部对这些组件进行迭代,这非常棒。显然,核心模型要困难得多。我认为我们也会开始加入或开始推动研究方面的工作,因为架构会不断发展。例如,你已经看到 AI21 在 Jamba 和 Mamba 上所做的工作。伊夫林认为 Mamba 是一种有前景的新架构。
我觉得有趣的是,要真正理解架构的能力,你必须推动其规模化。 目前,生态系统中缺少的部分是足够的计算资源。如果你看看学术界,有很多非常聪明的人,但他们缺乏足够的计算资源。这是一个问题,因为他们有很好的想法,但没有办法在所需的规模上真正执行,以真正理解这些想法是否能扩展。比如 Jamba 的论文和模型非常有趣,基准测试也很棒,但他们没有将其扩展到超过 100 亿参数。所以你会想,当我们将其训练到数百亿参数时,会发生什么?我们是否还能看到那些改进?
目前,至少在这些实验室之外,没有人知道答案。所以我认为这是一个挑战。对我来说,我们会进入一个混合空间,我们会在架构上发力,我们有非常聪明和成就卓著的研究团队,但我们也会继续执行。我认为这就是我们开始找到成功配方的时候。我们会将其推向极限,并继续发布更多的模型。与此同时,我们必须在架构上继续努力。
未来如何提升推理能力
桑娅·黄(Sonya Huang)
我对当前许多模型研究的一个分支非常感兴趣,特别是推理方面。你们在推理领域已经取得了非常出色的成果。我很好奇,能否从基础层面定义一下什么是推理?在预训练期间,推理能力是否会随着模型规模的增加而提升,还是主要在后期训练阶段有所提高?在推理方面,是否还有很多工作需要完成?
乔伊·斯皮萨克(Joe Spisak)
推理是一个相对复杂的领域,可以理解为多步骤的过程。比如,有些例子虽然有些像噱头,但能很好地说明问题,比如“鲍勃在开公交车,他选择了……”之类的。如果你在网上搜索,会发现成千上万这样的例子。这些例子实际上迫使模型采取多个步骤,通过逻辑思考来回应。
我认为编程是一个很好的例子,尤其是在预训练时。直接回答你的问题,推理能力的提升既来自后训练,也来自预训练。我们已经了解到,现在大家都认为这是理所当然的,但在过去一年左右,大家意识到,在预训练语料库中包含大量代码确实能显著提高推理能力。我们需要这样思考:代码是一步一步的,非常逻辑化的。如果在预训练中包含大量这样的内容,模型的推理能力会更好。
当然,我们也会在后训练中查看示例,并通过超级微调(SFT)来改进模型。我们会查看预训练模型,这取决于你如何平衡模型的推理能力和它对不同语言的响应能力,最终在后训练中,一切都是一种权衡。你可以极大地优化模型的编程能力,我们在 Code Llama 中就做到了这一点,效果非常好。但当然,模型在其他方面会有所欠缺。所以,最终这变成了我们在通用模型中想要实现的能力的帕累托前沿。任何人都可以选择一个基准或某种能力,并声称自己比 GPT-4 更好。很好,任何人都可以这样做。但你的模型是否像 GPT-4 或 Llama 3.1 那样具有通用能力,我认为这是另一个问题。
斯蒂芬妮·詹(Stephanie Zhan)
你认为未来有哪些方法可以提升推理能力?
乔伊·斯皮萨克(Joe Spisak)
显而易见的答案是数据。 我的意思是,越多的数据,尤其是代码和监督数据,你能获取的越多,这是一个自然的答案。我觉得我们还需要找到应用场景来定义它。一旦你找到那些关键应用,你就能知道该把注意力集中在哪些方面,这也涉及到你具体要解决的问题。这让我想起了电子邮件领域,我们已经开始达到饱和。
作为一个社区,我们往往会定义一个基准和指标,然后对其进行极致优化,这很好。但当你把模型放到实际环境中时,你会发现,哦,这个模型的 MMoU 得分更高,很好。但它的实际响应如何呢?可能并不如预期,但它的 MMoU 得分更高。
因此,我认为我们需要更好的评估方法和基准,来帮助我们找到实际交互的清晰路径。还有 LMSYS 和 Chatbot Arena,这些更自然,尽管还不完美,但它们在朝着更人性化的交互方向发展,而不是静态数据集或静态提示集,这些并不那么有用。所以我认为,一旦我们开始找到这些合理的用例,我们就会生成更多数据,从而改进模型。 希望这能成为一个基准,真正改善最终产品。当然,这很大程度上取决于最终产品是什么。
斯蒂芬妮·詹(Stephanie Zhan)
我一直很好奇,在大型研究实验室中,编码和数学一直是两个主要领域,并在解锁推理方面发挥了重要作用。在当前的初创企业生态系统中,我们看到越来越多的人真正从数学角度出发。你认为这是否已经带来了一些有趣的突破?
乔伊·斯皮萨克(Joe Spisak)
答案是肯定的。我的意思是,我认为,如果你看看我们的数据,或者至少看看我们的模型,我们就会发现,编码和数学一直是主要的杠杆。因此,显然数据越多越好。因为数学本身非常逻辑化且步骤明确,所以你可以看到其中的模式。你拥有的这种模式化数据越多,你的模型就会越合理。你可以看到模型的实际响应方式,比如当你要求它们解释思维过程时,它们确实会这样做。有些模型比其他模型做得更好。
我认为科学论文也是如此。我们在 Meta 人工智能研究院(FAIR)中有一些项目训练了 arXiv 论文,你可以看到不仅是代码和数学,像纯数学,还有科学论文,它们的写作方式非常逻辑化,步骤明确,并且它们如何创建图表等。这些也有助于模型的表现。所以 Galactica 项目,是由 Papers with Code 团队的 Robert 和 Ross领导的。在我看来,这是有史以来最酷的项目之一。虽然他们得到了很多负面报道,但我认为他们超前于时代。
开发者如何利用小模型?
斯蒂芬妮·詹(Stephanie Zhan)
我想谈谈小模型。考虑到许多初创公司所拥有的资本和计算资源规模,8B 和 70B 模型对整个生态系统来说是非常宝贵的资源。你称它们为“开胃菜”,这很有趣,因为我认为它们对这类公司来说已经非常强大,同时在许多需要小模型的不同应用中也非常有效。所以我很好奇,你希望开发者如何利用这些 8B 和 70B 模型,鉴于它们在同类模型中是最优秀的。
乔伊·斯皮萨克(Joe Spisak)
这很有趣,当我们在四月发布 LLaMA 3 时,我们推出了一个 8B 和一个 70B 的版本。我们称之为基准测试。你知道,8B 实际上比 LLaMA 2-70B 好很多。当时我不得不查看图表,心想,这是真的吗?是的,确实如此。它确实好很多。
桑娅·黄(Sonya Huang)
从直觉上来说,这种情况是如何发生的?
乔伊·斯皮萨克(Joe Spisak)
我们会使用更多的数据。我们使用的数据量增加了 7 倍,显然也投入了更多的计算资源。因此,在计算和数据方面,我们都在努力推进。我认为,每一代模型的进步速度都在加快。你会发现,大模型的基准测试结果逐渐被压缩到更小的规模。 例如,原本需要 70 个参数的模型现在只需要 8 个参数,我们内部有些模型的参数数量甚至比 8 还要少,我们开始在更小的模型上看到非常好的基准测试结果。因此,你会继续看到模型在更小的规模上改进。我认为这是因为我们在推动模型架构和大小的发展,而且我们还没有完全达到饱和状态。我觉得这非常有趣。
对我来说,小型架构有用的一个重要原因显然是为了在设备上运行。大家都喜欢谈论设备上的应用,苹果也在讨论设备上的应用。谷歌有 Gemini 模型,并且在 Android 设备上运行。所以我认为在设备上是有意义的。我觉得安全性也很有趣,因为我们内部有自己的 Llama Guard 模型版本,这些版本是为公司内部应用和 Meta 公司协调的。今天它们是基于8B 测试模型构建的,如果你考虑到安全模型,这种辅助模型运行起来是比较昂贵的。
因此,我们内部一直在尝试使用更小的模型,这样可以提高效率,降低延迟。因为这些模型实际上只是分类器,它们不像聊天界面那样是自回归的。它们只是对输入的提示进行分类,看是否违反了某个分类标准,以及模型生成的输出是否违反了这些标准。所以你可以进一步推动这些模型的发展。
我认为在设备上还有一些非常有趣的应用场景,比如隐私保护和数据处理。你希望数据保留在设备上,可以考虑在设备上使用类似于 RAG(检索增强生成)的架构。你有数据,甚至有 WhatsApp 等应用的聊天记录,你可以想象模型访问这些数据,进行聚合,然后运行某种类型的小型向量数据库,使用 RAG 进行模糊搜索或匹配,并与小模型结合。这就形成了一个独立的系统,你可以进行本地数据摘要处理。
比如,我收到很多短信,我可以说“请总结我最近的 15 条消息”,因为我一直在开会,没有看手机,这非常有用。而且我不需要将数据发送到云端或其他地方。所以在这些用例中,小模型会非常有吸引力。而对于非常复杂的查询,显然你可以在云端使用大模型来处理。但对于很多事情,小模型在设备上、边缘计算或本地部署中都可以胜任。
桑娅·黄(Sonya Huang)
非常有趣。你提到了通过扩展计算和数据来提高性能的两种基本途径。我猜现在有很多关于我们是否会在数据上遇到瓶颈,或者合成数据是否是解决方案的讨论。我很好奇你对此的看法。比如,我们是否即将面临廉价数据的瓶颈?对此你怎么看?在这种情况下,我们该如何继续扩展?
乔伊·斯皮萨克(Joe Spisak)
我认为,通过这次发布,我们已经证明了合成数据确实非常有用。在预训练阶段,我们使用了 150 亿个训练标记符。在后训练阶段,我们生成了大量合成数据,数百万条注释数据,其中很多是由 405b 生成的。显然,我们也为这些注释支付了费用。我确实认为合成数据是未来的潜在路径。现在我们知道,模型的表现就是最好的证明。虽然讨论这个话题很有趣,但我认为数据短缺在某个时候会成为我们的挑战。 这也是为什么现在很多公司都在许可大量数据以获取访问权限。比如,OpenAI 在许可数据,我们也在许可数据。
我认为,能够访问合成数据以改进模型的服务是非常重要的。这对很多公司来说是一个固有的优势。比如,Google 有 YouTube,这对他们肯定是有价值的。这也意味着大公司有优势,这并不是什么新鲜事。我们已经讨论这个问题很久了,关于数据壁垒问题,我认为我们还没有到达那个阶段。我建议我们再过一年再讨论这个问题,看看那时的情况。我会在日历上标记一年后的今天,到时候再看看情况。但目前我们还没有遇到这个问题,我们仍在扩展,仍在收集大量数据,并生成数据,我们的模型也在不断改进。
桑娅·黄(Sonya Huang)
我们来做个快问快答来结束吧。
斯蒂芬妮·詹(Stephanie Zhan)
你认为哪一年基准测试的通过率会超过 50%?
乔伊·斯皮萨克(Joe Spisak)
这是个好问题。如果我学到了什么,那就是它的速度总是比我能给出的任何答案都快。因为我认为任何基准测试,一旦我们专注于它,人们就会去研究并解决。所以我没有确切的答案。他们真的非常快。
桑娅·黄(Sonya Huang)
我们一直在问大家一个问题:在开源模型方面,你们是如何超越其他公司的模型的?
乔伊·斯皮萨克(Joe Spisak)
没错,我们几乎已经达到了那个水平。405B 真的难以置信,确实非常令人惊讶。
斯蒂芬妮·詹(Stephanie Zhan)
Meta 一直致力于开源,Llama 就是一个典型的例子。
乔伊·斯皮萨克(Joe Spisak)
我是说,我觉得马克很有决心。你也看到他的信了。我是说,从 PyTorch 到 FAIR 再到 Llama 模型,我们已经开源了很多年。我是说,这对公司来说不是昙花一现。公司长期以来一直致力于开源。所以,我不会说永远不会,但我的意思是,公司和 Mark 都是真心实意的。
斯蒂芬妮·詹(Stephanie Zhan)
Joe,非常感谢你今天的到来,以及你为整个 AI 生态系统所做的贡献。我相信整个 AI 社区都非常感激你在推动 Llama 及其相关进展方面所付出的努力。
乔伊·斯皮萨克(Joe Spisak)
请注意,这是一个庞大的团队。请阅读这篇论文,并查看所有的致谢部分。
斯蒂芬妮·詹(Stephanie Zhan)
昨天我一整天都在读这本书。
乔伊·斯皮萨克(Joe Spisak)
我们需要像《星球大战》那样,以滚动字幕的形式展示所有贡献者的名字。因为这是一个非常庞大的团队,他们在考虑安全问题。我想向团队致敬。这完全是集体的努力,绝对是团队合作的成果,才能走到这一步。我非常自豪和激动能够在这里代表团队,谢谢大家。