DeepSeek-AI 发布了 DeepSeek-V2.5，这是一款拥有 2380 亿参数的尖端模型，采用 160 个专家的混合专家模型（MoE），具备高级对话、编程功能，并支持 128k 的上下文窗口长度。

编辑注：本篇文章是对原作者 Asif Razzaq 在 MARKTECHPOST 上发表的英文文章的翻译，我们尽可能保持了原文的意思和语境，以下为翻译后原文。

DeepSeek-AI 发布了 DeepSeek-V2.5，这是一款强大的专家混合模型（MOE），拥有 2380 亿参数，包含 160 个专家和 160 亿活动参数，以优化性能。该模型在聊天和编码任务中表现出色，具备前沿功能，如函数调用、JSON 输出生成和中间填充（FIM）。凭借令人印象深刻的 128k 上下文长度，DeepSeek-V2.5 旨在轻松处理广泛而复杂的输入，拓展 AI 驱动解决方案的边界。这个升级版本结合了之前的两个模型：DeepSeekV2-Chat 和 DeepSeek-Coder-V2-Instruct。新版本承诺提供更好的用户体验、更强的编码能力以及更符合人类偏好。

DeepSeek 的演变

自成立以来，DeepSeek-AI 以生产强大的模型而闻名，这些模型专为满足开发者和非开发者日益增长的需求而设计。特别是 DeepSeek-V2 系列，已成为复杂 AI 任务的首选解决方案，将聊天和编码功能与尖端深度学习技术相结合。

图片来源

DeepSeek-V2.5 在其前身的成功基础上，整合了 DeepSeekV2-Chat 的最佳功能，该功能针对对话任务进行了优化，以及以生成和理解代码能力著称的 DeepSeek-Coder-V2-Instruct。这种组合使 DeepSeek-V2.5 能够满足更广泛的受众，同时在各种使用场景中提供增强的性能。该模型的架构经过精心设计，以提高响应能力、遵循指令的能力以及适应不同上下文的能力。

DeepSeek-V2.5 的关键特性

更好地符合人类偏好： DeepSeek-V2.5 的一个主要关注点是更好地符合人类偏好。这意味着该模型已被优化，能够更准确地遵循指令并提供更相关和连贯的响应。这一改进对于需要可靠 AI 解决方案的企业和开发者尤为重要，因为他们需要 AI 能够以最少的干预适应特定需求。
增强的写作和指令遵循能力： DeepSeek-V2.5 在写作方面有所提升，能够生成更自然的文本，并比以前的版本更有效地遵循复杂指令。无论是在基于聊天的界面中使用，还是用于生成各种编码指令，该模型都为用户提供了一个强大的 AI 解决方案，可以轻松处理各种任务。
通用和编码能力：通过融合 DeepSeekV2-Chat 和 DeepSeek-Coder-V2-Instruct 的能力，该模型弥合了对话式 AI 和编码辅助之间的差距。这种整合意味着 DeepSeek-V2.5 可以用于诸如客户服务自动化等通用任务，以及代码生成和调试等更专业的功能。
优化的推理需求：在本地运行 DeepSeek-V2.5 需要大量的计算资源，因为该模型使用了 2360 亿个 BF16 格式的参数，要求 80GB*8 的 GPU。然而，对于拥有必要硬件的人来说，该模型提供了高性能，具有令人印象深刻的速度和准确性。对于那些无法访问此类高级设置的用户，DeepSeek-V2.5 也可以通过 Hugging Face 的 Transformers 或 vLLM 运行，这两者都提供基于云的推理解决方案。

图片来源

性能指标

DeepSeek-V2.5 在各种基准测试中的性能指标得到了显著提升。在 AlpacaEval 2.0 基准测试中，DeepSeek-V2.5 的得分为 50.5，相较于 DeepSeek-V2 模型的 46.6 有所提高。同样，在 HumanEval Python 基准测试中，该模型的得分从 84.5 提升到了 89。这些指标证明了该模型在通用推理、编码能力和人类对齐响应方面的显著改进。

图片来源

除了这些基准测试外，该模型在 ArenaHard 和 MT-Bench 评估中也表现出色，展示了其在适应各种任务和挑战方面的多功能性和能力。这些改进为用户带来了实际利益，尤其是在准确性、可靠性和适应性至关重要的行业中。

推理与使用

DeepSeek-AI 为用户提供了多种利用 DeepSeek-V2.5 的方法。对于希望在本地运行模型的用户，Hugging Face 的 Transformers 库提供了一种简单的方法将模型集成到他们的工作流程中。用户可以轻松加载模型和分词器，确保与现有基础设施的兼容性。通过 vLLM 库生成响应的能力也可用，特别是在分布式环境中，允许更快的推理和更高效的资源使用。

DeepSeek-V2.5 提供了函数调用功能，使其能够与外部工具交互，以增强其整体功能。此功能对需要模型执行诸如检索当前天气数据或进行 API 调用等任务的开发人员非常有用。

许可和商业使用

DeepSeek-V2.5 的一个显著特点是其采用了 MIT 许可证，这种许可证允许在商业和非商业应用中灵活使用。这种许可模式确保企业和开发者可以将 DeepSeek-V2.5 纳入他们的产品和服务中，而无需担心受限条款。DeepSeek-V2 系列的模型许可协议支持商业使用，进一步增强了其对希望利用最先进 AI 解决方案的组织的吸引力。

结论

随着 DeepSeek-V2.5 的发布，它结合了之前模型的最佳元素，并针对更广泛的应用进行了优化，DeepSeek-V2.5 有望成为 AI 领域的重要参与者。无论是用于通用任务还是高度专业化的编程项目，这一新模型都承诺提供卓越的性能、增强的用户体验和更大的适应性，使其成为开发者、研究人员和企业的宝贵工具。

DeepSeek-AI 继续完善和扩展其 AI 模型，因此 DeepSeek-V2.5 代表了一个重要的进步。它确保用户能够获得一个强大而灵活的 AI 解决方案，以满足现代技术不断变化的需求。

本文翻译自 MARKTECHPOST，点击此处可查看原文