Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Meta 推出 SAM 2:实时分割图像和视频的开源 AI 模型

Meta 推出 SAM 2:实时分割图像和视频的开源 AI 模型

2024-08-01

Meta 最近推出了最新的 Segment Anything Model 2(SAM 2),这是一个能在图像和视频中实时分割对象的统一开源 AI 模型。SAM 2 不仅在静态图像中表现良好,在视频中也能实时跟踪和分割对象。

SAM 2 的核心亮点是其零样本泛化能力。即使是以前从未见过的对象和视觉域,它也能准确分割和跟踪。这让它在各种实际应用中都有广泛应用,比如视频编辑、自动驾驶和医疗影像分析等。Meta 还开源了 SAM 2 的代码和模型权重,并提供了一个大型带注释的数据库。

SAM 2 采用了流式内存设计,可以按顺序处理视频帧,适合实时应用。这种方法让它特别适合实时处理任意长的视频。引入了内存编码器、内存库和内存注意模块,这些组件让模型能记住之前处理过的信息,使得在视频分割过程中能保持对象的一致性和准确性。

在视频的每个步骤创建多个掩码,以处理模糊性。当图像中被分割的对象存在模糊性时,SAM 2 会输出多个有效掩码,并选择置信度最高的那个,以便在视频中进一步传播。

SAM 2 的应用场景包括但不限于以下几个领域:

  1. 在自动驾驶领域,SAM 2 能实时分割和跟踪道路上的各种对象,比如车辆、行人和交通标志。
  2. 在医疗领域,SAM 2 能用于分割和分析医学影像,如 CT 和 MRI 扫描。
  3. SAM 2 的实时分割能力让视频编辑变得更加高效和精确,用户可以在视频中分割和跟踪对象。
  4. 在 AR 应用中,SAM 2 能实时分割和跟踪现实世界中的对象,使得虚拟内容与现实环境融合。

SAM 2 的推理速度大约是每秒 44 帧,这确保了它在实际应用中能够实时处理视频数据。

Meta 已将 SAM 2 开源,用户可以在 GitHub 上访问和下载该模型的代码和相关资源。Meta 还发布了一个大型带注释数据库,其中包含大约 51,000 个真实世界视频和超过 600,000 个 masklets。Meta 根据 CC BY 4.0 许可分享 SA-V 数据集。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5