Meta AI 宣布推出新一代的Segment Anything Model (SAM) 2,能够在视频和图像中实现实时的可提示对象分割。
SAM 2可以快速、精确地在任何视频或图像中选择对象。它不仅能在图像中分割对象,还能在视频中追踪对象,即使这些对象在训练时从未见过。该模型支持实时互动,非常适合各种实际应用,比如视频编辑和互动式媒体内容制作。
- 对象分割:
- 它可以在图像或视频中识别出一个特定对象,并将该对象的像素与背景区分开来。例如,在一张包含多个物体的图片中,模型可以准确地找出并标记出某一个物体的轮廓。
- 实时性:
- 模型能够在视频播放的过程中快速处理每一帧,立即识别并分割、跟踪出特定对象。这样可以实现如视频编辑、特效制作等需要快速反馈的应用。
- 可提示:
- 是模型可以根据用户提供的提示(如点击某个物体、框选某个区域等)来进行分割。这种交互方式使得用户可以更精确地控制哪些对象需要被分割。
功能特点:
- 统一的图像和视频分割模型:
- SAM 2是一个统一的模型,既可以处理图像分割任务,也可以处理视频分割任务。这意味着它能够在不同类型的视觉数据中实现对象分割,而无需为每种类型单独训练模型。
- SAM 2是一个统一的模型,既可以处理图像分割任务,也可以处理视频分割任务。这意味着它能够在不同类型的视觉数据中实现对象分割,而无需为每种类型单独训练模型。
- 实时对象分割:
- SAM 2具有实时处理能力,能够快速处理视频帧和图像,实时分割出目标对象。这对需要即时反馈的应用场景非常重要,例如视频编辑和实时监控。
- SAM 2具有实时处理能力,能够快速处理视频帧和图像,实时分割出目标对象。这对需要即时反馈的应用场景非常重要,例如视频编辑和实时监控。
- 可提示对象分割:
- SAM 2支持用户通过提示(如点击、框选等)来指定要分割的对象。这种交互方式使得用户可以更精确地控制分割过程,提升分割结果的准确性。
- 零样本泛化能力:
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
- 多对象选择和调整
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
- 视频追踪能力
- SAM 2通过每个会话的内存模块跟踪视频中的目标对象,即使对象暂时消失在视野中,模型也能通过之前帧的上下文保持对对象的了解。
- SAM 2通过每个会话的内存模块跟踪视频中的目标对象,即使对象暂时消失在视野中,模型也能通过之前帧的上下文保持对对象的了解。
- 高效的人机交互:
- SAM 2在视频分割任务中需要的交互时间约为之前模型的三分之一,大大提高了效率。这在需要大量数据标注的任务中尤为重要,能够显著减少人工标注时间。
- 先进的内存机制:
- SAM 2引入了内存编码器、内存库和内存注意模块,这些组件允许模型记住之前处理过的信息,使得在视频分割过程中能够保持对象的一致性和准确性。
- 开放源码和数据集:
- Meta公司开源了SAM 2的代码和模型权重,并提供了包含约51,000个视频和超过600,000个时空掩码的SA-V数据集。这些资源在Apache 2.0和CC BY 4.0许可证下开放,供研究社区和开发者使用。
模型性能
- 高精度的图像和视频分割:
- SAM 2在图像分割的准确性上超过了之前的版本,并且在视频分割性能上也优于现有的模型。这使得它能够在各种复杂的视觉场景中保持高精度的分割结果。
- 实时推理速度:
- SAM 2的推理速度大约为每秒44帧,确保了在实际应用中能够实时处理视频数据。这对于需要快速反馈的应用场景,如视频编辑和实时监控,尤为重要。
- 减少交互时间:
- SAM 2需要的人工交互时间大约是之前模型的三分之一。这显著提高了标注效率,特别是在需要大量数据注释的任务中,可以大幅减少人工标注的工作量。
- 零样本泛化能力:
- SAM 2具备强大的零样本泛化能力,能够在没有特定训练数据的情况下处理未见过的对象和视觉域。这意味着它可以在各种新的视觉内容中表现出色,而无需进行额外的模型训练或调整。
- 多数据集表现优异:
- SAM 2在17个零样本视频数据集上显著优于之前的交互视频分割方法,并且在人机交互次数上减少了约三倍。
- 在23个图像数据集的零样本基准测试中,SAM 2的性能也显著超过了SAM,同时处理速度提高了六倍。
- 先进的模型架构:
- SAM 2引入了内存机制,包括内存编码器、内存库和内存注意模块,这些组件使得模型能够记住之前处理的信息,从而在视频分割过程中保持一致性和准确性。
- 公平性评估:
- 对于模型的公平性评估显示,SAM 2在不同性别和年龄组的性能差异最小,确保了模型在各种人口统计学特征中的表现一致。
- 改进的对象跟踪:
- SAM 2在视频中能够准确跟踪对象,避免了过度分割的问题。例如,在跟踪一个人穿的T恤时,SAM 2能够保持对T恤的准确跟踪,而不会错误地包括人的头部。
性能指标
- 视频帧处理速度:44帧每秒
- 交互时间减少:交互时间减少至原来的三分之一
- 人机交互效率:在视频分割注释中,SAM 2比手动每帧注释快8.4倍
- 模型公平性:在不同性别和年龄组中的性能差异最小
模型开发
1. 任务设计
可提示的视觉分割任务:
- 任务定义:扩展图像分割任务到视频分割。图像分割是识别图像中目标对象的像素,视频分割则是识别并追踪视频中目标对象的像素变化。
- 提示输入:SAM 2 能接受多种提示形式,如点、框或掩码。这些提示帮助模型在图像或视频帧中定义目标对象。
- 时空掩码(Masklet):在视频分割中,模型不仅在当前帧生成掩码,还会将该掩码传播到视频的其他帧,生成一个时空掩码。
2. 模型开发
统一的架构设计:
- 图像编码器:处理每一帧图像,生成嵌入表示,用于后续的分割任务。
- 轻量级掩码解码器:从图像嵌入和提示中输出分割掩码。对于视频,掩码解码器还需要处理跨帧的信息。
- 内存机制:包括内存编码器、内存库和内存注意模块,这些组件允许模型记住之前处理的信息,并在视频分割过程中使用这些信息保持对象的一致性。
- 内存编码器:根据当前掩码预测生成记忆,并存储在内存库中。
- 内存库:存储之前帧和提示帧的记忆。
- 内存注意模块:从内存库中提取相关记忆,结合当前帧的嵌入,生成新的掩码预测。
3. 数据集构建
- 数据收集:从47个国家收集51,000个真实世界的视频,覆盖多种地理和场景。
- 标注方法:使用互动模型循环与人工标注相结合的方法。标注人员使用SAM 2进行互动标注,生成初始掩码数据,模型根据这些数据进行更新,逐步提升标注效率和质量。
- 数据多样性:确保数据集覆盖各种对象及其部分(例如人的衣服、鞋子等),并处理遮挡、消失等复杂情况。
4. 训练过程
联合训练:
- 数据准备:使用SA-1B图像数据集(来自之前的Segment Anything项目)、SA-V视频数据集和内部许可的视频数据集。
- 训练策略:将图像视为单帧视频,统一进行训练。这样可以利用图像数据的丰富细节和视频数据的时序信息。
- 优化目标:通过联合训练,提升模型在图像和视频中的分割性能。
5. 模型评估与优化
性能评估:
- 基准测试:在17个零样本视频数据集和23个图像数据集上进行评估,验证模型在不同任务中的性能。
- 公平性评估:评估模型在不同性别和年龄组中的表现,确保性能一致。
模型优化:
- 交互效率:通过减少交互次数,提高标注效率。与SAM相比,SAM 2在视频分割任务中交互时间减少了三倍。
- 处理能力:实时处理视频帧,每秒44帧,确保实际应用中的高效性。
应用场景
SAM 2 的广泛应用场景涵盖多个领域,从视频编辑到自动驾驶,再到科学研究和创意应用,以下是一些详细的应用场景:
1. 视频编辑和特效制作
- 实时对象分割:SAM 2 能够在视频中实时分割和跟踪对象,为视频编辑提供高效工具。编辑人员可以快速分割出视频中的特定对象,并应用各种特效,例如背景替换、对象变换等。
- 创意效果:使用 SAM 2 的分割结果,可以创建新的视频效果,例如对象的虚化、变形或增强,为内容创作者提供更大的创作自由度。
2. 自动驾驶和机器人技术
- 环境感知:在自动驾驶和机器人技术中,实时分割和识别周围环境中的各种对象(如行人、车辆、障碍物等)对于导航和决策至关重要。SAM 2 的高精度和实时性使其能够在动态环境中有效工作。
- 数据注释:自动驾驶系统依赖大量标注数据进行训练。SAM 2 可以显著加快数据标注过程,提高标注效率,减少人工成本。
3. 医学研究和医疗应用
- 显微镜视频分析:在显微镜视频中,SAM 2 可以分割和追踪细胞、组织等微小结构,辅助科学研究和医学诊断。例如,在癌症研究中,可以精确定位和分析癌细胞的行为。
- 手术辅助:在内窥镜或腹腔镜手术中,SAM 2 可以实时分割和标记重要的解剖结构,帮助外科医生更精确地进行操作。
4. 科学研究和环境保护
-
- 动物行为研究:通过在视频中分割和追踪动物,研究人员可以详细分析动物的行为模式和运动轨迹。这对于生态学和行为学研究具有重要意义。
- 环境监测:使用无人机或卫星视频,SAM 2 可以实时分割和监测自然环境中的变化,例如森林火灾、洪水等,为环境保护和灾害管理提供关键数据。
5. 安全与监控
-
-
- 实时监控:在安全监控系统中,SAM 2 能够实时分割和跟踪视频中的可疑对象,提高监控效率和准确性。例如,在公共场所监控中,可以快速识别和跟踪潜在的安全威胁。
- 视频分析:通过分析监控视频,SAM 2 可以提取关键对象和事件,为执法部门提供有力的支持。
-
6. 内容创建与娱乐
-
-
- 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,SAM 2 可以实时分割和处理视频中的对象,增强用户体验。例如,AR 应用可以将虚拟对象精确叠加到现实场景中。
- 游戏开发:游戏开发者可以使用 SAM 2 创建更加逼真的游戏环境和角色交互,提高游戏的视觉效果和沉浸感。
未来,SAM 2 可以作为大型人工智能系统的一部分,通过 AR 眼镜识别日常用品,并向用户发出提醒和指示。
-
7. 教育与培训
-
-
- 教育视频制作:在教育领域,SAM 2 可以用于制作高质量的教育视频,实时分割和标注教学内容,帮助学生更好地理解复杂概念。
- 培训模拟:在专业培训中,SAM 2 可以用于创建模拟环境,例如医学培训中的手术模拟,提供更直观的学习体验。
-