大模型的降价风暴

2024 年的夏天注定不平静。

5 月一开始，幻方量化私募的 DeepSeek-V2率先宣布其 API 价格低至输入 1 元/1M tokens 和输出 2 元/1M tokens，这不仅仅是一次简单的价格调整，更像是一场精心策划的闪电战，彻底颠覆了行业的价格体系。

字节跳动的豆包主力模型也不甘落后，他们将输入价格降至 0.0008 元/千 Tokens，这降价速度，比翻书还快。

阿里云则像是在玩一场大胆的跳水比赛，不仅跳了，还做了个高难度的转体三周半，宣布旗下 9 款模型全面降价，主力模型 Qwen-Long 的 API 价格更是跳水冠军，从 0.02 元/千 tokens 一头扎进了 0.0005 元/千 tokens 的深水池。

百度则直接跳过了降价的戏码，宣布旗下大模型文心一言的两款产品 ERNIE Speed 和 ERNIE Lite 免费提供，这就像是在说：“降价？太麻烦了，我们直接免费！”

科大讯飞与腾讯也加入了这场降价狂欢，科大讯飞宣布讯飞星火 API 能力免费开放，而腾讯云的混元-lite 模型也全面免费。

这场由 DeepSeek-V2 引发的降价潮，不仅让企业和开发者享受到了成本的大幅降低，更为大模型技术的普及和应用拓展铺平了道路。

在理解降价之前，需要了解 LLM API 定价的核心在于标记（token）的概念。标记（token）是 LLMs 用于处理和生成语言的文本或代码的基本单元。 当你向 LLM API 发送提示或查询时，它会将输入分解为标记（token）以进行分析和生成响应。与使用 LLM API 相关的成本通常基于每个请求消耗的标记（token）数量。

根据 OpenAI 官网介绍，对于英文文本，1 个标记大约为 4 个字符或 0.75 个单词。来自 OpenAI 官网的演示，“tokenization”被标记为“token”和“ization”。标点符号、空格和特殊字符通常与单词一起被计为单独的标记。

不同的 LLM API 可能采用不同的标记化（tokenization）方案。标记化（tokenization）是将较大的输入或输出文本拆分为较小的单元以供“消化”的行为。一些 API，例如 OpenAI 的 Assistant API，引入了上下文标记（token）的附加概念。估算出输入、输出和上下文令牌（如果适用）后，将它们加在一起即可得出每个 API 请求消耗的标记（token）的大致数量。

对于任何生成式人工智能模型，计算负载和性能之间总是存在权衡。像 GPT-4o 这样的模型非常强大，但比简单模型需要更多的计算。这在一定程度上是由于不同的标记化方案造成的。

大模型成本的下降结构

随着深度学习技术的快速发展，算法优化、算力提升、架构创新以及系统层面的整合等多个方面的技术进步，共同促成了大模型成本的显著下降。

1、 算法优化

算法优化是大模型降价现象的核心驱动力之一，它涉及对模型内部机制的深入改进，以达到更高的效率和更低的运算成本。

–FFN（Feed-Forward Network）优化：在 Transformer 模型中，FFN 是执行非线性变换的关键组件。传统的 FFN 由于参数量大，导致计算成本高昂。为了优化 FFN，研究者们探索了如 MoE（Mixture of Experts）等架构，通过将单一的 FFN 层替换为多个小型且并行处理的专家网络，每个专家专注于不同的数据子集，从而显著降低了单个网络的参数量和计算复杂度。

–Attention 优化：Transformer 模型的另一个核心是其自注意力机制，它允许模型在序列的不同部分之间建立联系。然而，标准的多头自注意力在处理长序列时会遇到性能瓶颈和高计算成本。为了解决这一问题，出现了如 GQA（Generalized Query Attention）等优化技术，它们通过改进注意力的分配方式，减少了必要的计算量，同时保持了模型的性能。

–Transformer 框架替代方案：除了优化现有组件外，研究者也在探索可以替代 Transformer 框架的新方法。例如，通过在模型的不同层中插入 Mamba 网络替代传统的 Transformer 层，或者采用 Google 的 MoD（Mixture of Dots）技术来降低每个 Token 的注意力计算量，这些方法旨在减少模型的总体计算需求，从而降低成本。

–MoE 架构：MoE 架构通过引入多个专家网络，并由一个门控网络来决定输入数据由哪个专家处理，从而实现了计算资源的动态分配。这种方法不仅提高了模型的计算效率，还增强了模型处理多样化任务的能力。MoE 架构的一个关键优势是其能够通过增加专家的数量来扩展模型的能力，而不需要成比例地增加每个专家的参数量。

–Mixtral：Mixtral 是一种基于 MoE 的模型，它通过更细粒度的专家网络和更智能的门控机制，实现了对模型计算资源的更合理分配。这种结构允许模型在处理不同任务时，只激活相关的专家，从而减少了计算量和提高了效率。

–DeepSeek Shared-Expert：DeepSeek Shared-Expert 是幻方量化私募在其 DeepSeek 系列模型中采用的一种创新技术。它通过共享专家的概念，进一步优化了 MoE 架构中的资源分配。在这种设计中，一些专家被设置为“共享专家”，它们总是被激活，用于处理所有输入数据中普遍存在的共性特征，而其他专家则专注于更特定的任务。这种设计减少了专家之间的知识冗余，提高了模型的专业化程度和效率。

2、 算力提升

算力提升是降低大模型成本的另一个关键因素。随着硬件技术的进步和软件优化的深入，算力的提升为大模型的降价提供了可能。

– 量化方法：量化是一种减少模型中权重和激活表示所需位数的技术。通过将 32 位浮点数权重量化为更低位数（如 8 位或更少），模型可以在保持相似精度的同时减少内存占用和计算需求。这不仅降低了模型的存储需求，还提高了计算速度，因为量化后的运算可以在更高效的硬件上执行。

– 参数裁剪：参数裁剪技术通过移除模型中不重要或冗余的参数来减少模型大小。这通常通过分析模型权重的重要性来实现，只保留对模型性能影响最大的参数。参数裁剪不仅减少了模型的计算复杂度，还减少了模型的存储和传输需求。

– 稀疏 Attention：稀疏注意力技术通过减少注意力矩阵中的非零元素来降低计算量。在传统的 Transformer 模型中，每个 Token 的输出都与序列中的所有其他 Token 相关联，这导致了大量的计算。稀疏注意力通过只计算一部分 Token 的相关性，从而减少了必要的计算量，同时保持了模型的性能。

– Speculative Decoding：Speculative Decoding 是一种潜在的算力节省方式，它涉及使用较小规模的模型生成多个候选 Token，然后让更大一点的模型进行验证。这种方法可以在保持输出质量的同时减少对大模型的依赖，因为小模型可以并行生成候选，而大模型只需验证最佳选项。此外，Speculative Decoding 还可以与安全对齐工作并行进行，进一步提高效率。

– 知识蒸馏：知识蒸馏是一种将大型复杂模型的知识传递给小型模型的技术。通过训练小型模型以模仿大型模型的输出，可以在保持较小模型尺寸的同时实现接近大型模型的性能。这种方法可以减少对高算力硬件的需求，因为小型模型可以在更广泛的硬件上高效运行。

– 异构计算：异构计算架构通过结合不同类型的处理器（如 CPU、GPU、TPU 等）的优势，实现了对资源的更高效利用。例如，使用 GPU 进行大规模并行计算，而 CPU 处理需要更序列化的任务。这种策略可以显著提高整体计算效率，降低成本。

– 算子优化：算子优化，如 FlashAttention，通过优化计算过程中的内存访问和数据流，减少推理延迟，提高吞吐量。优化的算子可以减少每个操作的计算周期，从而降低整体的算力需求。

3、 架构创新

架构创新在大模型降价中起到了至关重要的作用。通过创新的系统设计，可以显著提高模型的运算效率和扩展性，进而降低成本。

(1) KV Cache 管理

a. SplitWise：SplitWise 是一种先进的架构管理技术，它通过将 KV Cache（键值缓存）的填充（Prefill）和解码（Decoding）过程分离到不同的硬件上，优化了资源的使用。高算力的 GPU 可以用于快速完成 KV Cache 的 Prefill，而低算力但大带宽的硬件则负责 Decoding，这样可以根据不同硬件的优势进行任务分配，提高整体的运算效率。

(2) 异构计算

a. 硬件协同：异构计算架构通过结合 CPU、GPU、TPU 等不同类型的处理器，实现了计算任务的最优分配。例如，使用 CPU 进行任务调度和预处理，利用 GPU 的强大并行处理能力进行密集型计算，再通过 TPU 进行特定的深度学习运算，可以最大化各种硬件的性能，降低总体的运算成本。

b. 资源动态分配：在异构计算环境中，系统可以根据任务的具体需求动态地分配资源。这种灵活性允许系统在不同任务之间共享和重新分配计算资源，从而避免了资源浪费，提高了整体的效率。

(3) FlashAttention

a. FlashAttention：FlashAttention 是一种针对 Transformer 模型中自注意力机制的优化技术。它通过减少内存访问次数和优化数据传输路径，显著提高了自注意力计算的速度。这种优化对于降低大模型在推理阶段的延迟和提高吞吐量至关重要。

(4) 算子优化

a. In-Flight Batching：In-Flight Batching 是一种在处理多个请求时，对 Token 进行并行编排的技术。这种方法可以更高效地利用计算资源，因为它允许系统在单个批次中同时处理多个请求，减少了空闲时间，提高了资源利用率。

b. Pipeline Parallelism/Tensor Parallelism/Sequence Parallelism：这些并行策略通过将模型的不同部分分配到不同的处理器上执行，实现了模型计算的并行化。Pipeline Parallelism 将模型的不同层分配到不同的硬件上，Tensor Parallelism 将模型的单个层的不同部分分配到多个硬件上，而 Sequence Parallelism 则允许同时处理多个序列。这些策略共同作用，可以显著提高模型的运算速度和效率。

(5) 内存管理

a. PageAttention：PageAttention 是一种内存管理技术，它通过优化内存页的使用，减少了内存访问延迟和带宽需求。这种技术通过智能地预加载和缓存数据，确保了计算过程中内存的高效使用。

b. CPU Offloading：CPU Offloading 技术通过将部分计算任务从 GPU 卸载到 CPU，利用 CPU 的多线程和大内存容量优势，减轻了 GPU 的负担，同时提高了整体的计算效率。

推动 DeepSeek-V2 模型降价的核心因素

具体到这次降价潮，很难将降价完全归因于某一项技术。然而，可以认为，架构创新，特别是与推理效率直接相关的技术，如KV Cache 管理和异构计算，可能对降价有较大的直接影响。例如：

KV Cache 管理：通过优化 KV Cache 的使用，可以显著降低大模型在推理时的内存需求和计算成本，这直接关系到服务提供的成本和最终用户的使用成本。
异构计算：通过更有效地利用不同类型处理器的优势，可以提高整体的运算效率，降低功耗和成本。

根据官方说法，DeepSeek-V2 模型的 KV Cache 减少了 93.3%，将最大生成吞吐量提升至 5.76 倍。当 KV Cache 降低时，意味着模型可以使用更少的内存来存储中间状态，从而增大一次训练迭代中同时处理的样本数量（Batch Size），每次迭代可以处理更多的数据，这要求硬件资源能够支持并行处理更多的计算任务。如果硬件资源得到充分利用，即算力利用率高，那么模型的整体效率就会提高，可以在较短的时间内完成更多的工作，从而降低单位计算成本。

这一成本效益的实现，并非以牺牲利润为代价。DeepSeek-V2 利用 8 卡的英伟达 H800 的配置，实现了输入吞吐量超过每秒 10 万 tokens，输出超过每秒 5 万 tokens。

DeepSeek-V2 使用了一种高性能的硬件配置，即 H800 集群。在这个配置中，每个节点装备了 8 个 H800 GPU 加速卡。这些 GPU 通过 NVLink 和 InfiniBand 这两种高速通信技术连接在一起。NVLink 是 NVIDIA 开发的，专门用于 GPU 之间连接的高速串行链路，而 InfiniBand 则是一种广泛应用于数据中心和高性能计算领域的高速网络技术。

在这样的硬件支持下，DeepSeek-V2 能够处理庞大的数据集和复杂的模型参数。具体来说，它可以训练包含 8TB（TeraBytes）数据和 236B（Billion，十亿）参数的模型。这样的数据量和参数规模对于任何计算系统来说都是巨大的挑战。

然而，DeepSeek-V2 的创新之处在于，即便面对如此庞大的任务，它所需的计算资源仅为 Llama 3 70B 模型的五分之一，GPT-4 模型的二十分之一。这就好比说，以前需要 20 个人才能完成的工作，现在只需要 1 个人就能完成，而且还能保证工作质量和效率。

DeepSeek-V2 模型之所以能够实现令人瞩目的成本效益，其中一个关键的创新点是引入了一种名为 Multi-Head Latent Attention（MLA）的技术。这项技术在处理语言模型时，采用了一种新颖的方法来压缩和存储信息，从而显著降低了模型运行所需的计算资源和成本。

在传统的 Transformer 模型中，如 MHA（Multi-Head Attention）、GQA（Generalized Query Attention）和 MQA（Multi-Query Attention）等，它们通过合并查询（Query）来减少键（Key）和查询（Query）之间的计算量，以此提高效率。这种方法虽然在一定程度上减少了计算负担，但仍然需要存储大量的键值对（KV Cache），这在处理长文本或大型数据集时会占用大量的显存空间。

MLA 技术的出现，改变了这一局面。它采用了一种独特的压缩策略，将传统的 KV Cache 转换成了一个低维的潜在向量（Latent vector）。这个潜在向量能够以更紧凑的形式存储关键信息，从而大幅减少了模型在运行时所需的显存占用。具体来说，MLA 技术可以将显存占用降低到传统 MHA 架构的 5%到 13%，这是一个非常显著的改进。

这种压缩不仅减少了硬件资源的需求，还意味着可以更高效地处理更大的数据集，或者在相同的硬件条件下提供更快的处理速度。如果将模型比作一个图书馆，那么传统的 MHA、GQA、MQA 等技术就像是将书籍按类别放在不同的书架上，而 MLA 技术则像是将书籍的精华内容制作成电子版，既节省了书架空间，又方便了快速查找和阅读。

DeepSeek-V2 模型的创新之处在于采用了一种名为 low-rank KV 压缩的技术，也就是 MLA（Multi-Head Latent Attention）。这项技术通过巧妙地压缩模型中的键值对（KV）信息，显著减少了模型运行时所需的内存和计算资源。就像把一本厚重的百科全书浓缩成一张张信息密集的卡片，既节省空间，又能快速查找所需内容。

然而，这种压缩技术也可能带来一些缺点。如果压缩得太厉害，可能会丢失一些重要信息，这在技术领域称为“损耗问题”。就像把一张高清照片压缩得太小，可能会导致照片变得模糊，失去了一些细节。但是，MLA 技术在减少计算复杂性的同时，还提升了模型的泛化能力，意味着模型能够更好地理解和处理各种不同的问题，这无疑是一个积极的进步。

此外，推理降本的速度也超出了预期。在过去一年中，每六个月成本就降低一个数量级，一年内已经降低了两个数量级。而且，这还是在算力没有升级的情况下实现的。考虑到明年 GB200 的部署，推理成本可能会再降低 30 倍。再加上无法预测的架构创新、推理优化、系统升级，甚至可能的推理集群计算架构方面的黑科技，推理成本的降低速度简直不敢想象。

大佬们对此次大模型降价潮的影响有如下评价和总结：

猎豹移动董事长兼 CEO 傅盛认为降价的主要目标是吸引开发者，而不是直接为了用户使用。他指出，大模型性能遇到瓶颈时，降低成本和售价成为高优先级任务，目的是让更多开发者参与进来，开发出让用户更方便使用的应用。
百川智能创始人王小川认为，面向 B 端企业客户的大模型可能会转向云服务的销售模式，而应用层将会繁荣起来，为创业公司带来新机会。
创新工场董事长李开复提到，如果行业继续进行价格战，可能会导致双输局面，他暗示了对行业生态可能产生的负面影响。
阿里云智能集团资深副总裁刘伟光提到降价的目的是普惠于市场，加速市场的提前爆发。这表明降价被视为一种推动行业发展和普及 AI 技术的手段。

降价在大模型市场中成为了一种不可避免的趋势，就像智能手机不断更新换代，价格也越来越亲民一样。这种趋势是技术不断向前发展和市场竞争加剧这两个因素共同作用的结果。企业需要在降价的同时，注重技术创新、品牌建设和合作伙伴关系的维护，这样才能在激烈的市场竞争中实现长期的可持续发展。