Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Meta 发布 SAM-2,实时分割技术助力视频创作和自动驾驶

Meta 发布 SAM-2,实时分割技术助力视频创作和自动驾驶

2024-08-08

Meta 公司于 2024 年 7 月 30 日发布了 Segment Anything Model 2(SAM-2),标志着 AI 实时对象分割技术的进展。相比去年的 SAM1,SAM2 提升了图像分割的准确性,并能够在视频中进行实时分割,减小交互时间,并支持零镜头泛化。

SAM-2 的核心是其实时对象分割能力。对于视频内容创作者来说,这意味着能够在素材中实时识别和分割目标,无需繁琐的后期处理步骤。例如,在制作虚拟主播视频时,SAM2 可以实时分割主播与背景,实现背景替换和虚拟场景的构建。这一技术也可以简化电影特效的制作过程。

SAM-2 的基础架构基于 transformer 模型并引入了流式记忆机制,主要由图像编码器、记忆编码器、记忆注意力模块、提示编码器和掩模解码器等模块组成。图像编码器作为 SAM-2 处理视频帧的起点采用了流式处理方法,能够处理任意长度的视频,相比第一代可以使用更少的交互提升 3 倍效率。它使用的是一个预训练的 Hiera 模型,能够提供多尺度的特征表示,为后续的记忆注意力模块和掩模解码器提供丰富的上下文信息。

记忆编码器和记忆注意力模块是本次 SAM-2 的创新之一。记忆编码器负责将模型先前的预测和用户交互动作编码为记忆,并将这些记忆存储在记忆库中,用于影响后续帧的分割结果。记忆注意力模块则利用这些记忆来增强当前帧的特征表示,使其能够更好地捕捉目标对象在时间序列中的动态变化。记忆编码器通过将预测的分割掩模降采样并与当前帧的特征融合,生成记忆特征。随后通过一系列轻量级的卷积层进一步处理,以整合信息。记忆库则保留了目标对象在视频中的历史信息,通过维护一个先进先出队列来存储最近 N 帧的记忆。

提示编码器的设计遵循了 SAM 的原则,能够接受点击、框选或遮罩等不同类型的提示,以定义给定帧中对象的范围。这些稀疏提示通过位置编码和学习到的嵌入表示进行表示,而遮罩则通过卷积操作进行嵌入,并与帧嵌入相加。掩模解码器的设计在很大程度上遵循了第一代 SAM 的架构,使用了双向 transformer 块,这些块更新提示和帧嵌入。为了处理可能存在多个兼容目标掩模的模糊提示,SAM-2 预测每个帧上的多个掩模。

Meta 还分享了 SAM-2 的训练数据集 SA-V,包含了 51,000 真实世界视频和超过 600,000 个时空遮罩。现有的视频分割数据集通常存在一些限制,例如,注释对象主要集中在人、车辆和动物等特定类别,并且往往只覆盖整个对象而忽略了部分和子部分。此外,这些数据集的规模相对较小,无法满足训练强大的视频分割模型的需求。为了解决这些难题,Meta 开发了 SA-V 数据集并使用了三大阶段。

在第一阶段,使用了 SAM 模型来辅助人类标注。标注者的任务是在视频的每帧中以每秒 6 帧的速度使用 SAM 和像素精确的手动编辑工具来标注目标对象的掩码。在这个阶段,共收集了 16,000 个掩码片段,涵盖了 1,400 个视频。

第二阶段,引入了 SAM 2 Mask,它只接受掩码作为提示。标注者首先使用 SAM 和其他工具在第一帧中生成空间掩码,然后使用 SAM 2 Mask 将标注的掩码在时间上传播到其他帧,以获得完整的时空掩码片段。通过这个阶段的工作,收集了 635,000 个掩码片段,标注时间下降到每帧 7.4 秒。

第三阶段,使用了完全功能的 SAM-2。它能够接受各种类型的提示,包括点和掩码。与前两个阶段不同,SAM-2 受益于对象在时间维度上的记忆来生成掩码预测。这意味着标注者只需要偶尔对 SAM 2 提供的预测掩码进行细化点击,就能够在中间帧中编辑预测的掩码片段。通过多次重新训练和更新 SAM-2,标注时间进一步下降到每帧 4.5 秒。所以,SA – V 在开发 SAM-2 过程中发挥了重要作用,也是目前最大视觉分割训练数据集之一。

在视频编辑领域,SAM-2 能够简化工作流程,通过最少的用户干预即可实现对象的全剪辑分割。例如,视频创作者可以使用 SAM-2 分割出视频中的人物或物体,进行背景替换、特效添加等操作。

在自动驾驶领域,SAM-2 的实时分割能力为车辆识别和环境感知提供了支持。自动驾驶系统可以利用 SAM-2 实时分割道路上的行人、车辆和障碍物。此外,SAM-2 的零样本泛化能力使其能够应对各种复杂的驾驶场景。

在医疗领域,SAM-2 也展现了其应用前景。通过对医学影像的实时分割,医生可以识别和分析病变区域。例如,在手术过程中,SAM-2 可以实时分割出手术区域,辅助医生进行操作。

然而,SAM-2 在实际应用中也面临一些挑战。例如,在处理长时间视频时,SAM-2 可能会出现对象跟踪不稳定的情况,尤其是在视角变化较大或场景复杂的情况下。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5