UMI：斯坦福开发的一个机器人数据收集和策略学习框架

通过手持式夹持器和精心设计的接口进行数据收集。

UMI可以将人类在复杂环境下的操作技能直接转移给机器人，无需人类编写详细的编程指令。

也就是通过人类亲自操作演示然后收集数据，直接转移到机器人身上，使得机器人能够快速学习新任务

UMI整合了精心设计的策略接口，包括推理时延匹配和相对轨迹动作表示，使得学习到的策略不受硬件限制，可跨多个机器人平台部署。

UMI提供了一个便携、直观、低成本的数据收集和策略学习框架，允许直接将多样化的人类演示转化为有效的视觉运动策略。这一框架特别适用于传统遥操作难以完成的任务，如动态、精确、双手操作和长期视角任务。

UMI的主要特点和功能： 1、技能转移： 将人类在复杂环境下的操作技能直接转移给机器人，无需人类编写详细的编程指令。

2、数据收集： 通过人类直接操作的方式收集机器人学习所需的动态操作数据，包括视觉信息和动作序列。

3、多平台部署： 让通过UMI学习到的机器人操作策略能够跨不同的机器人硬件平台部署，实现硬件无关性。

4、提高机器人操作能力： 通过UMI，机器人能学习执行更为复杂、精细的操作任务，如双手协作、精确操控等。

5、快速适应新任务： UMI使机器人能够通过观察人类的操作演示快速学习新任务，无需从头开始编程，提高了机器人适应新任务的速度。

6、降低机器人学习成本： 通过使用UMI，可以减少机器人学习和部署新任务所需的时间和资源，降低成本。

7、推动机器人技术在各领域的应用： UMI的使用拓宽了机器人在家庭、服务、制造和其他行业中的应用范围，使其能够更好地服务于人类社会。

UMI关键技术和设计理念： 1、硬件设计： UMI采用手持式夹持器，配备高质量摄像头（如GoPro），用于在执行任务时捕捉视觉数据。这种设计使得数据收集过程既简单又直观，允许操作者自然地演示任务，同时捕获丰富的视觉和操作信息。

手持式夹持器： 使用3D打印的平行夹持器，配备软指尖，提高了操作的灵活性和安全性。夹持器中集成了GoPro摄像头作为唯一的传感器和记录设备，用于捕捉操作过程中的视觉信息。

鱼眼镜头： 夹持器上安装的155度鱼眼镜头，扩大了视野范围，确保收集到足够的视觉上下文和关键深度信息，对于学习有效的机器人策略至关重要。

侧面镜子： 为了弥补单目摄像头无法直接获取深度信息的缺陷，UMI设计中加入了侧面镜子，通过提供隐式立体视图来辅助深度估计。

IMU感知追踪： 结合GoPro内置的IMU（惯性测量单元）数据，UMI能够在快速移动下保持稳定的追踪，即使在因运动模糊或视觉特征缺失时也能维持追踪。

2、硬件无关的数据收集： 通过使用通用的手持式夹持器和视觉系统，UMI能够在不依赖于特定机器人硬件的情况下收集数据。这意味着所收集的数据可以用于多种机器人系统，提高了数据的可用性和灵活性。

延迟匹配： UMI通过推理时延匹配处理不同硬件（如流媒体摄像头、机器人控制器、工业夹持器）之间的延迟变化，确保观测流和动作执行之间的时间匹配。

动作表示： 采用相对轨迹作为动作表示，消除了对精确全局动作的需求，从而简化了从人类动作到机器人执行动作的转换。

扩散策略模型： 使用扩散策略（Diffusion Policy）模型来处理多模态动作分布，增强了策略处理复杂、多样化人类演示数据的能力。

3、推理时延匹配与相对轨迹动作表示： UMI在策略接口中实现了推理时延匹配和相对轨迹动作表示，确保了动作的准确性和时间对齐。这一点对于执行精确和时间敏感的任务至关重要。

4、零次射泛化能力： 通过在多样化的人类演示上训练，UMI学习到的策略能够实现零次射泛化到新的环境和对象。这意味着机器人能够在没有见过的情况下执行任务，展示出高度的适应性和灵活性。

现实世界的应用验证： UMI通过一系列的实验验证了其方法的有效性，包括动态投掷、精确放置、双手协作任务等。这些实验不仅证明了UMI策略的泛化能力，也展示了其在真实世界环境中的应用潜力。

项目及演示： https://umi-gripper.github.io/

论文： https://umi-gripper.github.io/umi.pdf

GitHub： https://github.com/real-stanford/universal_manipulation_interface

硬件指南： https://docs.google.com/document/d/1TPYwV9sNVPAi0ZlAupDMkXZ4CA1hsZx7YDMSmcEy6EU/edit?usp=sharing

数据收集说明： https://swanky-sphere-ad1.notion.site/UMI-Data-Collection-Tutorial-4db1a1f0f2aa4a2e84d9742720428b4c?pvs=4

Menu

分类目录

UMI：斯坦福开发的一个机器人数据收集和策略学习框架

Related Posts

Livekit推出一个开源的精准语音轮次检测模型可精准识别用户是否说完话

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MidJourney 推出个性化档案和情绪版新功能记住你的风格喜好

Google视频和图像生成模型更新包括Veo 2、Imagen 3和一个新工具Whisk

Google发布 2024年值得关注的Chrome扩展程序

Xai 发布 Grok-2 模型新版本速度提升3倍多语言指令遵循能力更强

Recommendeds

H2O：将人类动作实时转换为机器人动作实时全身遥控机器人

一款开源的低成本的机器人手臂，成本只需$250

基于 ChatTTS 2600个音色库稳定性评分并按性别和年龄分类可试听

教程：如何把自己变成吉卜力电影角色替换动画片中人物角色

Mobile-Agent-v2：让AI可以像真人一样来操控你的手机执行各种任务

Figma推出Multi-edit功能：让设计更简单，批量编辑轻松搞定

EMO：一张照片+音频即可生成会说话唱歌的视频

Google 推出 Gmail 侧边栏 Gemini 智能助手功能可以帮你回复邮件

Meta AI发布 Sapiens 视觉模型专门用来分析和理解图片或视频中的人和他们的动作

LongWriter：让LLMs能够生成超过 10000 字甚至20000 字连贯高质量的文本

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

UMI：斯坦福开发的一个机器人数据收集和策略学习框架

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?