Figure 展示了他们与OpenAI合作的最新进展,炸裂了 Figure 01接入ChatGPT后获得了惊人的能力 如:视觉环境描述能力、决策推理能力、高层次请求的理解和执行行动的解释能力。 机器人能够进行语音对话、描述视觉体验、规划动作、反思记忆、并口头解释推理过程。 结合Figure先进的神经网络,使机器人能够执行类似人类的快速、灵巧动作。表明这一合作已经取得了显著进展。 <h3>主要功能和能力:</h3> - 描述周围环境。 - 在做出决策时使用常识推理。 - 将模糊、高层次的请求(如“我饿了”)转化为某些上下文 -适当的行为(如“给人一个苹果”)。 - 用简单的英语描述执行特定动作的原因。 <h3>技术深入:</h3> 1、所有行为都是学习得来的(而非遥控操作)并以正常速度运行。 2、通过从机器人的摄像头获取的图像和通过机器上的麦克风捕获的转录文本,输入到一个大型的多模态模型中,该模型由 OpenAI 训练,能够理解图像和文本。 3、模型负责决定运行哪种学习到的闭环行为以满足给定的命令,将特定的神经网络权重加载到 GPU 并执行策略。 这一成果展示了如何通过综合应用多模态理解能力和机器学习,实现与机器人的自然交互和智能行为规划。 - OpenAI提供视觉推理和语言理解能力。 - Figure的神经网络实现快速、低级别、灵巧的机器人动作。 - 此合作旨在推动机器人学习的边界,为人形机器人开发AI模型。 - 合作已使机器人动作显著加速,接近人类速度。 - Figure的机器人使用搭载摄像头和OpenAI训练的大型视觉语言模型(VLM),实现200Hz的24自由度动作。 - Figure在工程方面进行了垂直整合,包括电机、固件、热管理、电子设备等。