多个 AI 模型帮助机器人更透明地执行复杂的计划

With a thought bubble containing a to-do list over its head, a robotic arm begins to complete kitchen tasks in three panels: opening a microwave, opening and closing a cupboard door, and placing a pot on a stove.

你的日常待办事项清单可能非常简单：洗碗、买杂货和其他细节。你不太可能写出“拿起第一个脏盘子”或“用海绵洗盘子”，因为家务中的每一个微型步骤都感觉很直观。虽然我们可以不假思索地完成每个步骤，但机器人需要一个复杂的计划，其中包括更详细的大纲。

麻省理工学院的不可能人工智能实验室是计算机科学和人工智能实验室（CSAIL）的一个小组，它为这些机器提供了一个新的多模态框架：分层规划的组合基础模型（HiP），该框架利用三种不同基础模型的专业知识制定详细、可行的计划。与 OpenAI 的 GPT-4（ChatGPT 和 Bing Chat 的基础模型）一样，这些基础模型是在大量数据上训练的，用于生成图像、翻译文本和机器人等应用。

与RT2和其他在配对视觉，语言和动作数据上训练的多模态模型不同，HiP使用三种不同的基础模型，每个模型在不同的数据模态上训练。每个基础模型都捕获决策过程的不同部分，然后在需要做出决策时协同工作。HiP消除了访问配对视觉，语言和动作数据的需要，这很难获得。HiP还使推理过程更加透明。

对于人类来说，被认为是日常琐事的可能是机器人的“长期目标”——一个涉及首先完成许多小步骤的总体目标——需要足够的数据来计划、理解和执行目标。虽然计算机视觉研究人员试图为这个问题构建整体基础模型，但将语言、视觉和动作数据配对是昂贵的。取而代之的是，HiP代表了一种不同的多模态配方：一个廉价地将语言，物理和环境智能整合到机器人中的三人组。

“基础模型不一定是单体的，”NVIDIA AI 研究员 Jim Fan 说，他没有参与这篇论文。“这项工作将具身智能体规划的复杂任务分解为三个组成模型：语言推理器、视觉世界模型和行动规划器。它使一个困难的决策问题更加容易处理和透明。

该团队认为，他们的系统可以帮助这些机器完成家务，例如收起一本书或将碗放入洗碗机中。此外，HiP可以协助完成多步骤的构建和制造任务，例如以特定顺序堆叠和放置不同的材料。

评估HiP

CSAIL团队在三项操作任务上测试了HiP的敏锐度，表现优于同类框架。该系统通过制定适应新信息的智能计划进行推理。

首先，研究人员要求它将不同颜色的方块堆叠在一起，然后在附近放置其他方块。问题在于：一些正确的颜色不存在，因此机器人必须将白色块放入颜色碗中才能绘制它们。HiP经常准确地适应这些变化，特别是与最先进的任务计划系统相比，如Transformer BC和Action Diffuser，通过根据需要调整其计划以堆叠和放置每个方块。

另一个测试：将糖果和锤子等物品放在棕色盒子中，而忽略其他物品。它需要移动的一些物体很脏，所以HiP调整了计划，把它们放在一个清洁箱里，然后放进棕色的容器里。在第三个演示中，机器人能够忽略不必要的物体来完成厨房子目标，例如打开微波炉、清理水壶和打开灯。一些提示的步骤已经完成，因此机器人通过跳过这些方向来适应。

三管齐下的层次结构

HiP的三管齐下的规划过程作为一个层次结构运作，能够根据不同的数据集（包括机器人以外的信息）预先训练其每个组件。该顺序的底部是一个大型语言模型（LLM），它通过捕获所需的所有符号信息并制定抽象的任务计划来开始构思。该模型应用在互联网上找到的常识性知识，将其目标分解为子目标。例如，“泡一杯茶”变成了“把锅装满水”、“煮锅”以及所需的后续动作。

“我们想做的就是采用现有的预训练模型，并让它们成功地相互连接，”麻省理工学院电气工程和计算机科学系（EECS）的博士生、CSAIL附属机构Anurag Ajay说。“我们没有推动一种模式来做所有事情，而是将多种模式结合起来，利用不同的互联网数据模式。当串联使用时，它们有助于机器人决策，并可能有助于家庭、工厂和建筑工地的任务。

这些模型还需要某种形式的“眼睛”来理解它们所处的环境并正确执行每个子目标。该团队使用大型视频扩散模型来增强LLM完成的初始规划，该模型从互联网上的镜头中收集有关世界的几何和物理信息。反过来，视频模型生成一个观测轨迹计划，完善LLM的大纲以纳入新的物理知识。

这个过程被称为迭代改进，允许HiP对其想法进行推理，在每个阶段接受反馈，以生成更实用的大纲。反馈的流程类似于撰写文章，作者可以将他们的草稿发送给编辑，并将这些修订纳入其中，出版商会审查任何最后的更改并最终确定。

在这种情况下，层次结构的顶部是以自我为中心的动作模型，或一系列第一人称图像，根据周围环境推断应该采取哪些行动。在此阶段，来自视频模型的观察计划被映射到机器人可见的空间上，帮助机器决定如何在长期目标内执行每项任务。如果机器人使用HiP泡茶，这意味着它将准确地绘制出壶，水槽和其他关键视觉元素的位置，并开始完成每个子目标。

尽管如此，多模态工作仍受到缺乏高质量视频基础模型的限制。一旦可用，他们就可以与HiP的小型视频模型进行交互，以进一步增强视觉序列预测和机器人动作生成。更高质量的版本还将降低视频模型的当前数据要求。

话虽如此，CSAIL团队的方法总体上只使用了一小部分数据。此外，HiP的训练成本低廉，并展示了使用现成的基础模型完成长期任务的潜力。“Anurag 所展示的是概念验证，说明我们如何利用在单独的任务和数据模态上训练的模型，并将它们组合成机器人规划模型。将来，HiP可以通过预先训练的模型进行增强，这些模型可以处理触摸和声音以制定更好的计划，“资深作者，麻省理工学院EECS助理教授兼Improbable AI实验室主任Pulkit Agrawal说。该小组还在考虑将HiP应用于解决机器人技术中现实世界的长期任务。

Ajay 和 Agrawal 是一篇描述这项工作的论文的主要作者。麻省理工学院教授和 CSAIL 首席研究员 Tommi Jaakkola、Joshua Tenenbaum 和 Leslie Pack Kaelbling 也加入了他们的行列;CSAIL 研究附属机构和麻省理工学院-IBM AI 实验室研究经理 Akash Srivastava;研究生 Seungwook Han 和 Yilun Du ’19;前博士后Abhishek Gupta，现任华盛顿大学助理教授;和前研究生 Shuang Li PhD ’23。

该团队的工作得到了美国国家科学基金会、美国国防高级研究计划局、美国陆军研究办公室、美国海军研究办公室多学科大学研究计划和麻省理工学院-IBM Watson AI 实验室的部分支持。他们的研究结果发表在 2023 年神经信息处理系统会议（NeurIPS）上。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2024/multiple-ai-models-help-robots-execute-complex-plans-more-transparently-0108