Figure 机器人接入ChatGPT后获得自我推理等惊人能力

Figure 展示了他们与OpenAI合作的最新进展，炸裂了 Figure 01接入ChatGPT后获得了惊人的能力 如：视觉环境描述能力、决策推理能力、高层次请求的理解和执行行动的解释能力。 机器人能够进行语音对话、描述视觉体验、规划动作、反思记忆、并口头解释推理过程。 结合Figure先进的神经网络，使机器人能够执行类似人类的快速、灵巧动作。表明这一合作已经取得了显著进展。 主要功能和能力： - 描述周围环境。 - 在做出决策时使用常识推理。 - 将模糊、高层次的请求（如“我饿了”）转化为某些上下文 -适当的行为（如“给人一个苹果”）。 - 用简单的英语描述执行特定动作的原因。 技术深入： 1、所有行为都是学习得来的（而非遥控操作）并以正常速度运行。 2、通过从机器人的摄像头获取的图像和通过机器上的麦克风捕获的转录文本，输入到一个大型的多模态模型中，该模型由 OpenAI 训练，能够理解图像和文本。 3、模型负责决定运行哪种学习到的闭环行为以满足给定的命令，将特定的神经网络权重加载到 GPU 并执行策略。 这一成果展示了如何通过综合应用多模态理解能力和机器学习，实现与机器人的自然交互和智能行为规划。 - OpenAI提供视觉推理和语言理解能力。 - Figure的神经网络实现快速、低级别、灵巧的机器人动作。 - 此合作旨在推动机器人学习的边界，为人形机器人开发AI模型。 - 合作已使机器人动作显著加速，接近人类速度。 - Figure的机器人使用搭载摄像头和OpenAI训练的大型视觉语言模型（VLM），实现200Hz的24自由度动作。 - Figure在工程方面进行了垂直整合，包括电机、固件、热管理、电子设备等。

Menu

分类目录

Figure 机器人接入ChatGPT后获得自我推理等惊人能力

Related Posts

Clone Robotics：可以生产类似西部世界里面的仿生机器人的公司

Cloudflare 推出对抗 AI 机器人的工具可一键阻止所有 AI 机器人、抓取工具和爬虫

LivePortrait：只需一张静态肖像图像就能生成动态视频可精确控制眼睛和嘴唇的动作

Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

2024上半年《人工智能现状报告》来自750名AI行业领导者和技术人员的意见

Perplexity发布 Pro Search 高级搜索功能支持多步推理、先进的数学和编程能力

Recommendeds

Figma推出Multi-edit功能：让设计更简单，批量编辑轻松搞定

OpenAI、斯坦福、微软等多所机构筛选出1565篇论文发布大模型提示技术报告

MoneyPrinterTurbo：利用大语言模型一键生成1分钟长的短视频

Prompt 学习地图 18 | 复杂任务 – 综合分析多个答案

HairFastGAN：将一张照片上的人物发型转移到另一张照片上

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

BioMedLM ：一个可以在笔记本电脑上运行推理的生物医学语言模型

Supertone Shift：实时语音变换器将你的声音变成各种角色和性别的声音

Magnific Relight 教程：通过一个提示和参考图像来改变任何图像场景的照明和背景

基于 ChatTTS 2600个音色库稳定性评分并按性别和年龄分类可试听

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Figure 机器人接入ChatGPT后获得自我推理等惊人能力

Support authors and subscribe to content

Subscribe

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?