Meta 推出 SAM 2：实时分割图像和视频的开源 AI 模型

Meta 最近推出了最新的 Segment Anything Model 2（SAM 2），这是一个能在图像和视频中实时分割对象的统一开源 AI 模型。SAM 2 不仅在静态图像中表现良好，在视频中也能实时跟踪和分割对象。

SAM 2 的核心亮点是其零样本泛化能力。即使是以前从未见过的对象和视觉域，它也能准确分割和跟踪。这让它在各种实际应用中都有广泛应用，比如视频编辑、自动驾驶和医疗影像分析等。Meta 还开源了 SAM 2 的代码和模型权重，并提供了一个大型带注释的数据库。

SAM 2 采用了流式内存设计，可以按顺序处理视频帧，适合实时应用。这种方法让它特别适合实时处理任意长的视频。引入了内存编码器、内存库和内存注意模块，这些组件让模型能记住之前处理过的信息，使得在视频分割过程中能保持对象的一致性和准确性。

在视频的每个步骤创建多个掩码，以处理模糊性。当图像中被分割的对象存在模糊性时，SAM 2 会输出多个有效掩码，并选择置信度最高的那个，以便在视频中进一步传播。

SAM 2 的应用场景包括但不限于以下几个领域：

SAM 2 的推理速度大约是每秒 44 帧，这确保了它在实际应用中能够实时处理视频数据。

Meta 已将 SAM 2 开源，用户可以在 GitHub 上访问和下载该模型的代码和相关资源。Meta 还发布了一个大型带注释数据库，其中包含大约 51,000 个真实世界视频和超过 600,000 个 masklets。Meta 根据 CC BY 4.0 许可分享 SA-V 数据集。