Meta AI发布 Sapiens 视觉模型 专门用来分析和理解图片或视频中的人和他们的动作

Meta Reality Labs开发一套名为“Sapiens”的人工智能模型。主要提供用于处理人类视觉任务的高分辨率模型,专门用来分析和理解图片或视频中的人和他们的动作。这些任务包括识别人类的姿势、分割身体部位、测量深度和判断物体表面的角度。模型在超过 3 亿张人类图像上进行了训练,能够在各种复杂的环境下表现出色。

这些模型可以处理非常高分辨率的图像,并且能够在很少的标注数据甚至是完全合成的数据的情况下,仍然表现出色。这使得它们在实际应用中非常有用,尤其是在数据稀缺的情况下。

此外,Sapiens模型设计简单,易于扩展。当增加模型的参数数量时,其在各项任务中的性能会显著提升。在多个基于人类视觉的测试中,Sapiens模型已经超过了现有的基线模型,表现优异。

应用场景

Sapiens模型主要应用于多个关键的人类视觉任务领域,其应用场景和用途包括:

1. 2D姿势估计
2. 身体部位分割
3. 深度估计
4. 表面法线预测
5. 通用人类视觉任务
6. 虚拟现实和增强现实
7. 医疗与健康

技术方法

1. 数据集与预处理
2. 模型架构
3. 遮掩自编码器(Masked Autoencoder, MAE)预训练
4. 关键任务方法
5. 大规模预训练与微调

实验结果:

  1. 2D姿势估计
    • Sapiens模型在2D姿势估计任务中表现优异,特别是在全身、面部、手部和足部的关键点检测上,显著超越了现有的最先进方法。
  2. 身体部位分割
    • Sapiens模型在身体部位分割任务中实现了更高的平均交并比(mIoU)和像素准确率(mAcc),在细节丰富的分割任务中表现尤为出色。
  3. 深度估计
    • Sapiens模型在深度估计任务中表现出色,尤其在人类场景中,其深度估计精度显著优于现有方法,特别是在多人的复杂场景中。
  4. 表面法线预测
    • 在表面法线预测任务中,Sapiens模型展现了更高的精度和一致性,在不同的场景下均表现出色,显著降低了平均角度误差。
  5. 预训练数据源
    • 以人为中心的预训练数据集对提升Sapiens模型在各项任务中的表现至关重要,证明了人类特定数据的重要性。
  6. 零样本泛化
    • Sapiens模型展示了广泛的零样本泛化能力,能够适应不同的场景、年龄段和视角,尽管训练数据有限。

项目地址:https://about.meta.com/realitylabs/codecavatars/sapiens

论文:https://arxiv.org/pdf/2408.12569

GitHub:https://github.com/facebookresearch/sapiens

退出移动版