Meta 推出了 Segment Anything 2 (SA2)模型,这是个能在视频和图像中实时分割对象的开源 AI 工具。
Meta 去年推出的 Segment Anything 模型(SAM)能够识别和勾勒图像中的几乎所有物体。在 SIGGRAPH 大会上,Meta 发布了该模型的升级版——Segment Anything 2(SA2),并将其应用扩展到了视频领域。
高效处理大规模视频数据
SA2 模型在技术上有多项创新。首先,它能够处理大规模的视频数据,并在每一帧中进行分割,而不需要在视频的每一帧上单独运行第一个模型,从而在不增加计算负担的情况下实现分割。其次,SA2 模型采用了机器学习算法,即使在没有大量标注数据的情况下也能进行训练。此外,Meta 还发布了一个包含 50,000 个视频的大型注释数据库,专门为 SA2 模型的训练创建,这将支持模型的进一步发展和优化。
Meta 计划将 SA2 模型开放给所有人免费使用,这将极大地推动 AI 技术的普及和创新。SA2 模型的高效性确保了它在不超载数据中心的情况下运行,这对于需要处理大量视频数据的科学家来说是一个巨大的优势。SA2 模型可以用于研究视频中的动态变化,如动物行为、交通流量等。
SA 2-革新性的视觉分割技术
SA 2 采用了基于提示的视觉 Transformer(ViT)架构,其核心组件包括图像编码器、提示编码器和解码器。图像编码器用 MAE 进行预训练,提示编码器处理用户提供的提示信息,解码器将编码后的信息转化为分割结果。SA 2 的训练数据集涵盖了数百万张图像和视频帧,场景和对象类型多样,使得模型在分割精度和速度上都有显著提升。
SA 2 的应用场景非常广泛,包括自动驾驶、医疗影像分析和视频监控等。 在自动驾驶领域,SA 2 可用于识别和分割道路上的各种对象,帮助自动驾驶系统更准确地理解和应对复杂的驾驶环境。在医疗影像分析中,SA 2 能辅助医生进行诊断和治疗规划,特别是在肿瘤检测和分割中。在视频监控领域,SA 2 可以实时监控和分析视频中的异常行为和事件,帮助安防系统检测和响应潜在威胁。
Meta 已经在 GitHub 上开源了 SA 2, 提供了详细的使用教程和示例,以便用户快速上手并掌握 SA 2 的使用方法。
你可以在这查看原博客:https://about.fb.com/news/2024/07/our-new-ai-model-can-segment-video/