Meta AI 推出新一代SAM 2 可实时在图像或视频中识别出特定对象并进行跟踪

Meta AI 宣布推出新一代的Segment Anything Model (SAM) 2,能够在视频和图像中实现实时的可提示对象分割。

SAM 2可以快速、精确地在任何视频或图像中选择对象。它不仅能在图像中分割对象,还能在视频中追踪对象,即使这些对象在训练时从未见过。该模型支持实时互动,非常适合各种实际应用,比如视频编辑和互动式媒体内容制作。

功能特点:

  1. 统一的图像和视频分割模型
    • SAM 2是一个统一的模型,既可以处理图像分割任务,也可以处理视频分割任务。这意味着它能够在不同类型的视觉数据中实现对象分割,而无需为每种类型单独训练模型。
  2. 实时对象分割
    • SAM 2具有实时处理能力,能够快速处理视频帧和图像,实时分割出目标对象。这对需要即时反馈的应用场景非常重要,例如视频编辑和实时监控。
  3. 可提示对象分割
    • SAM 2支持用户通过提示(如点击、框选等)来指定要分割的对象。这种交互方式使得用户可以更精确地控制分割过程,提升分割结果的准确性。
  4. 零样本泛化能力
    • SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
  5. 多对象选择和调整
    • SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
  6. 视频追踪能力
    • SAM 2通过每个会话的内存模块跟踪视频中的目标对象,即使对象暂时消失在视野中,模型也能通过之前帧的上下文保持对对象的了解。
  7. 高效的人机交互
    • SAM 2在视频分割任务中需要的交互时间约为之前模型的三分之一,大大提高了效率。这在需要大量数据标注的任务中尤为重要,能够显著减少人工标注时间。
  8. 先进的内存机制
    • SAM 2引入了内存编码器、内存库和内存注意模块,这些组件允许模型记住之前处理过的信息,使得在视频分割过程中能够保持对象的一致性和准确性。
  9. 开放源码和数据集
    • Meta公司开源了SAM 2的代码和模型权重,并提供了包含约51,000个视频和超过600,000个时空掩码的SA-V数据集。这些资源在Apache 2.0和CC BY 4.0许可证下开放,供研究社区和开发者使用。

模型性能

  1. 高精度的图像和视频分割
    • SAM 2在图像分割的准确性上超过了之前的版本,并且在视频分割性能上也优于现有的模型。这使得它能够在各种复杂的视觉场景中保持高精度的分割结果。
  2. 实时推理速度
    • SAM 2的推理速度大约为每秒44帧,确保了在实际应用中能够实时处理视频数据。这对于需要快速反馈的应用场景,如视频编辑和实时监控,尤为重要。
  3. 减少交互时间
    • SAM 2需要的人工交互时间大约是之前模型的三分之一。这显著提高了标注效率,特别是在需要大量数据注释的任务中,可以大幅减少人工标注的工作量。
  4. 零样本泛化能力
    • SAM 2具备强大的零样本泛化能力,能够在没有特定训练数据的情况下处理未见过的对象和视觉域。这意味着它可以在各种新的视觉内容中表现出色,而无需进行额外的模型训练或调整。
  5. 多数据集表现优异
    • SAM 2在17个零样本视频数据集上显著优于之前的交互视频分割方法,并且在人机交互次数上减少了约三倍。
    • 在23个图像数据集的零样本基准测试中,SAM 2的性能也显著超过了SAM,同时处理速度提高了六倍。
  6. 先进的模型架构
    • SAM 2引入了内存机制,包括内存编码器、内存库和内存注意模块,这些组件使得模型能够记住之前处理的信息,从而在视频分割过程中保持一致性和准确性。
  7. 公平性评估
    • 对于模型的公平性评估显示,SAM 2在不同性别和年龄组的性能差异最小,确保了模型在各种人口统计学特征中的表现一致。
  8. 改进的对象跟踪
    • SAM 2在视频中能够准确跟踪对象,避免了过度分割的问题。例如,在跟踪一个人穿的T恤时,SAM 2能够保持对T恤的准确跟踪,而不会错误地包括人的头部。

性能指标

模型开发

1. 任务设计

可提示的视觉分割任务

2. 模型开发

统一的架构设计

3. 数据集构建

SA-V数据集

4. 训练过程

联合训练

5. 模型评估与优化

性能评估

模型优化

应用场景

SAM 2 的广泛应用场景涵盖多个领域,从视频编辑到自动驾驶,再到科学研究和创意应用,以下是一些详细的应用场景:

1. 视频编辑和特效制作

2. 自动驾驶和机器人技术

3. 医学研究和医疗应用

4. 科学研究和环境保护

5. 安全与监控

6. 内容创建与娱乐

7. 教育与培训

退出移动版