Meta AI 推出新一代SAM 2 可实时在图像或视频中识别出特定对象并进行跟踪

Meta AI 宣布推出新一代的Segment Anything Model (SAM) 2，能够在视频和图像中实现实时的可提示对象分割。

SAM 2可以快速、精确地在任何视频或图像中选择对象。它不仅能在图像中分割对象，还能在视频中追踪对象，即使这些对象在训练时从未见过。该模型支持实时互动，非常适合各种实际应用，比如视频编辑和互动式媒体内容制作。

对象分割：
- 它可以在图像或视频中识别出一个特定对象，并将该对象的像素与背景区分开来。例如，在一张包含多个物体的图片中，模型可以准确地找出并标记出某一个物体的轮廓。
实时性：
- 模型能够在视频播放的过程中快速处理每一帧，立即识别并分割、跟踪出特定对象。这样可以实现如视频编辑、特效制作等需要快速反馈的应用。
可提示：
- 是模型可以根据用户提供的提示（如点击某个物体、框选某个区域等）来进行分割。这种交互方式使得用户可以更精确地控制哪些对象需要被分割。

功能特点：

统一的图像和视频分割模型：
- SAM 2是一个统一的模型，既可以处理图像分割任务，也可以处理视频分割任务。这意味着它能够在不同类型的视觉数据中实现对象分割，而无需为每种类型单独训练模型。
实时对象分割：
- SAM 2具有实时处理能力，能够快速处理视频帧和图像，实时分割出目标对象。这对需要即时反馈的应用场景非常重要，例如视频编辑和实时监控。
可提示对象分割：
- SAM 2支持用户通过提示（如点击、框选等）来指定要分割的对象。这种交互方式使得用户可以更精确地控制分割过程，提升分割结果的准确性。
零样本泛化能力：
- SAM 2能够分割未见过的对象和视觉域（零样本泛化），这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
多对象选择和调整
- SAM 2能够分割未见过的对象和视觉域（零样本泛化），这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
视频追踪能力
- SAM 2通过每个会话的内存模块跟踪视频中的目标对象，即使对象暂时消失在视野中，模型也能通过之前帧的上下文保持对对象的了解。
高效的人机交互：
- SAM 2在视频分割任务中需要的交互时间约为之前模型的三分之一，大大提高了效率。这在需要大量数据标注的任务中尤为重要，能够显著减少人工标注时间。
先进的内存机制：
- SAM 2引入了内存编码器、内存库和内存注意模块，这些组件允许模型记住之前处理过的信息，使得在视频分割过程中能够保持对象的一致性和准确性。
开放源码和数据集：
- Meta公司开源了SAM 2的代码和模型权重，并提供了包含约51,000个视频和超过600,000个时空掩码的SA-V数据集。这些资源在Apache 2.0和CC BY 4.0许可证下开放，供研究社区和开发者使用。

模型性能

高精度的图像和视频分割：
- SAM 2在图像分割的准确性上超过了之前的版本，并且在视频分割性能上也优于现有的模型。这使得它能够在各种复杂的视觉场景中保持高精度的分割结果。
实时推理速度：
- SAM 2的推理速度大约为每秒44帧，确保了在实际应用中能够实时处理视频数据。这对于需要快速反馈的应用场景，如视频编辑和实时监控，尤为重要。
减少交互时间：
- SAM 2需要的人工交互时间大约是之前模型的三分之一。这显著提高了标注效率，特别是在需要大量数据注释的任务中，可以大幅减少人工标注的工作量。
零样本泛化能力：
- SAM 2具备强大的零样本泛化能力，能够在没有特定训练数据的情况下处理未见过的对象和视觉域。这意味着它可以在各种新的视觉内容中表现出色，而无需进行额外的模型训练或调整。
多数据集表现优异：
- SAM 2在17个零样本视频数据集上显著优于之前的交互视频分割方法，并且在人机交互次数上减少了约三倍。
- 在23个图像数据集的零样本基准测试中，SAM 2的性能也显著超过了SAM，同时处理速度提高了六倍。
先进的模型架构：
- SAM 2引入了内存机制，包括内存编码器、内存库和内存注意模块，这些组件使得模型能够记住之前处理的信息，从而在视频分割过程中保持一致性和准确性。
公平性评估：
- 对于模型的公平性评估显示，SAM 2在不同性别和年龄组的性能差异最小，确保了模型在各种人口统计学特征中的表现一致。
改进的对象跟踪：
- SAM 2在视频中能够准确跟踪对象，避免了过度分割的问题。例如，在跟踪一个人穿的T恤时，SAM 2能够保持对T恤的准确跟踪，而不会错误地包括人的头部。

性能指标

视频帧处理速度：44帧每秒
交互时间减少：交互时间减少至原来的三分之一
人机交互效率：在视频分割注释中，SAM 2比手动每帧注释快8.4倍
模型公平性：在不同性别和年龄组中的性能差异最小

模型开发

1. 任务设计

可提示的视觉分割任务：

任务定义：扩展图像分割任务到视频分割。图像分割是识别图像中目标对象的像素，视频分割则是识别并追踪视频中目标对象的像素变化。
提示输入：SAM 2 能接受多种提示形式，如点、框或掩码。这些提示帮助模型在图像或视频帧中定义目标对象。
时空掩码（Masklet）：在视频分割中，模型不仅在当前帧生成掩码，还会将该掩码传播到视频的其他帧，生成一个时空掩码。

2. 模型开发

统一的架构设计：

图像编码器：处理每一帧图像，生成嵌入表示，用于后续的分割任务。
轻量级掩码解码器：从图像嵌入和提示中输出分割掩码。对于视频，掩码解码器还需要处理跨帧的信息。
内存机制：包括内存编码器、内存库和内存注意模块，这些组件允许模型记住之前处理的信息，并在视频分割过程中使用这些信息保持对象的一致性。
内存编码器：根据当前掩码预测生成记忆，并存储在内存库中。
内存库：存储之前帧和提示帧的记忆。
内存注意模块：从内存库中提取相关记忆，结合当前帧的嵌入，生成新的掩码预测。

3. 数据集构建

SA-V数据集：

数据收集：从47个国家收集51,000个真实世界的视频，覆盖多种地理和场景。
标注方法：使用互动模型循环与人工标注相结合的方法。标注人员使用SAM 2进行互动标注，生成初始掩码数据，模型根据这些数据进行更新，逐步提升标注效率和质量。
数据多样性：确保数据集覆盖各种对象及其部分（例如人的衣服、鞋子等），并处理遮挡、消失等复杂情况。

4. 训练过程

联合训练：

数据准备：使用SA-1B图像数据集（来自之前的Segment Anything项目）、SA-V视频数据集和内部许可的视频数据集。
训练策略：将图像视为单帧视频，统一进行训练。这样可以利用图像数据的丰富细节和视频数据的时序信息。
优化目标：通过联合训练，提升模型在图像和视频中的分割性能。

5. 模型评估与优化

性能评估：

基准测试：在17个零样本视频数据集和23个图像数据集上进行评估，验证模型在不同任务中的性能。
公平性评估：评估模型在不同性别和年龄组中的表现，确保性能一致。

模型优化：

交互效率：通过减少交互次数，提高标注效率。与SAM相比，SAM 2在视频分割任务中交互时间减少了三倍。
处理能力：实时处理视频帧，每秒44帧，确保实际应用中的高效性。

应用场景

SAM 2 的广泛应用场景涵盖多个领域，从视频编辑到自动驾驶，再到科学研究和创意应用，以下是一些详细的应用场景：

1. 视频编辑和特效制作

实时对象分割：SAM 2 能够在视频中实时分割和跟踪对象，为视频编辑提供高效工具。编辑人员可以快速分割出视频中的特定对象，并应用各种特效，例如背景替换、对象变换等。
创意效果：使用 SAM 2 的分割结果，可以创建新的视频效果，例如对象的虚化、变形或增强，为内容创作者提供更大的创作自由度。

2. 自动驾驶和机器人技术

环境感知：在自动驾驶和机器人技术中，实时分割和识别周围环境中的各种对象（如行人、车辆、障碍物等）对于导航和决策至关重要。SAM 2 的高精度和实时性使其能够在动态环境中有效工作。
数据注释：自动驾驶系统依赖大量标注数据进行训练。SAM 2 可以显著加快数据标注过程，提高标注效率，减少人工成本。

3. 医学研究和医疗应用

显微镜视频分析：在显微镜视频中，SAM 2 可以分割和追踪细胞、组织等微小结构，辅助科学研究和医学诊断。例如，在癌症研究中，可以精确定位和分析癌细胞的行为。
手术辅助：在内窥镜或腹腔镜手术中，SAM 2 可以实时分割和标记重要的解剖结构，帮助外科医生更精确地进行操作。

4. 科学研究和环境保护

- 动物行为研究：通过在视频中分割和追踪动物，研究人员可以详细分析动物的行为模式和运动轨迹。这对于生态学和行为学研究具有重要意义。
- 环境监测：使用无人机或卫星视频，SAM 2 可以实时分割和监测自然环境中的变化，例如森林火灾、洪水等，为环境保护和灾害管理提供关键数据。

5. 安全与监控

- - 实时监控：在安全监控系统中，SAM 2 能够实时分割和跟踪视频中的可疑对象，提高监控效率和准确性。例如，在公共场所监控中，可以快速识别和跟踪潜在的安全威胁。
  - 视频分析：通过分析监控视频，SAM 2 可以提取关键对象和事件，为执法部门提供有力的支持。

6. 内容创建与娱乐

- - 虚拟现实和增强现实：在虚拟现实（VR）和增强现实（AR）应用中，SAM 2 可以实时分割和处理视频中的对象，增强用户体验。例如，AR 应用可以将虚拟对象精确叠加到现实场景中。
  - 游戏开发：游戏开发者可以使用 SAM 2 创建更加逼真的游戏环境和角色交互，提高游戏的视觉效果和沉浸感。未来，SAM 2 可以作为大型人工智能系统的一部分，通过 AR 眼镜识别日常用品，并向用户发出提醒和指示。