Meta 公司最近发布了最新的 Segment Anything Model 2(SAM 2),这款开源 AI 模型不仅能在图像中分割对象,还能在视频中实现实时、可提示的对象分割。用户只需点击或框选需要分割的对象,SAM 2 会自动将这个分割传播到后续帧,形成时空掩码。SAM 2 的推理速度大约为每秒 44 帧,确保了它在实际应用中可以实时处理视频数据。
2023 年,Meta 公司推出了 Segment Anything Model(SAM),这个模型专注于图像分割。2024 年 7 月 30 日,Meta 带来了全新的 Segment Anything Model 2(SAM 2)。这次升级不仅对图像分割进行了优化,还扩展到了视频分割领域。SAM 2 支持零样本泛化,能够分割从未见过的对象和视觉域。处理视频时,模型依赖内存回忆处理过的信息,以便在当前时间步长上分割对象。
用户可以通过点击选择目标对象,SAM 2 会根据点击自动将分割传播到后续帧,形成时空掩码。如果在某些帧中丢失了目标对象,用户可以通过在新一帧中提供额外的提示进行校正。SAM 2 新增了遮挡 head,用于预测当前帧中是否存在感兴趣的对象,处理遮挡问题。在视频分割任务中,某些帧上可能没有有效对象,例如对象被遮挡或从视图中消失。
SAM 2 能分割和跟踪道路上的车辆、行人和交通标志等对象。这样一来,自动驾驶系统可以识别和处理道路上的动态变化。在医疗领域,SAM 2 可以用于分割和分析 CT 和 MRI 等医学影像。它能区分不同的组织和器官,帮助医生进行诊断和治疗规划。SAM 2 的分割能力使视频编辑工作变得更加高效和精确。用户可以在视频中分割和跟踪对象,实现特效和动画制作。SAM 2 还能分割和跟踪现实世界中的对象,使虚拟内容与现实环境融合,应用于游戏、教育、培训等领域。
SAM 2 以 Apache 2.0 许可发布,任何人都可以使用它来构建自己的项目。Meta 还根据 CC BY 4.0 许可分享了用于构建 SAM 2 的数据集 SA-V,开发者和研究人员可以使用和改进这些资源。为了帮助用户上手和应用这款工具,Meta 提供了详细的文档和教程。用户可以在 GitHub 上访问和下载 SAM 2 的代码和相关资源。