RT-H是一个利用视觉语言模型(VLM)通过语言来预测动作层次结构的模型,由Google DeepMind的研究团队开发。。RT-H能够理解用自然语言描述的任务指令,比如你告诉机器人“关闭开心果罐”,机器人可以理解这个任务需要它做哪些具体的动作。
这种方法的聪明之处在于,它把复杂的任务分解成了简单的动作序列。这不仅让机器人更容易学习不同的任务,而且当任务失败时,人类可以用简单的语言来告诉机器人如何修正,比如改变动作的方向或方式。这种用语言来指导机器人的方式,让人类与机器人的交互变得更简单、直观。