斯坦福大学的研究人员教机器人人类想要什么

在电脑游戏中，当赛车在赛道上奔跑时，汽车被告知要优化速度，它会把踏板推到金属上，然后开始在一个很小的圆圈内旋转。说明书上没有告诉这辆车要直行，所以它是临时凑合的。

研究人员正试图让人类更容易地告诉自动系统，如车辆和机器人，他们想让它们做什么。(图片来源:Getty Images)

这个例子——在电脑游戏中很有趣，但在现实生活中并不那么有趣——是促使斯坦福大学研究人员为自主系统建立更好目标的方法之一。

计算机科学和电子工程助理教授Dorsa Sadigh和她的实验室将两种不同的机器人设定目标的方法结合到一个单一的过程中，这一过程在模拟和真实实验中都比单独的任何一个部件表现得更好。研究人员于6月24日在机器人科学与系统会议上展示了这项研究成果。

“在未来，我完全期待世界上有更多的自主系统，它们将需要一些关于什么是好，什么是坏的概念，”计算机科学研究生、该论文的联合首席作者安迪·帕兰(Andy Palan)说。“如果我们想在未来部署这些自主系统，关键是我们做对了。”

该团队为机器人提供指导的新系统——被称为奖励功能——结合了演示(在演示中，人类向机器人展示该做什么)和用户偏好调查(在用户偏好调查中，人们回答有关他们希望机器人如何表现的问题)。

“示威活动能提供信息，但也可能很吵。另一方面，偏好最多只能提供一点信息，但要准确得多。”“我们的目标是充分利用这两个世界，更智能地结合来自这两个来源的数据，更好地了解人类的首选奖励功能。”

示威活动和调查

在之前的研究中，萨迪只专注于偏好调查。这些测试要求人们比较各种场景，比如自动驾驶汽车的两条轨迹。这种方法是有效的，但是生成下一个问题可能需要多达三分钟的时间，对于像汽车这样的复杂系统，创建指令仍然很慢。

为了加快速度，该小组后来开发了一种同时产生多个问题的方法，这些问题可以由一个人快速连续回答，也可以分发给几个人。与一个一个地生成问题相比，这个更新将这个过程加快了15到50倍。

一个机器人手臂如何使用调查问题来确定使用者的偏好的例子。在这种情况下，这个人更喜欢轨迹1 (T1)而不是轨迹2。(图片来源:Andy Palan和Gleb Shevchuk)

新的组合系统从一个人向机器人演示一种行为开始。这可以给自主机器人提供很多信息，但机器人往往很难确定演示的哪些部分是重要的。人们也不总是希望机器人表现得像训练它的人一样。

“我们不能总是做演示，即使可以，我们也常常不依赖人们提供的信息，”电子工程专业研究生埃尔德姆?比伊克(Erdem Biyik)说。“例如，之前的研究表明，人们希望自动驾驶汽车的驾驶积极性低于他们自己。”

这就是调查的目的，给机器人提供了一种方式来询问，例如，用户是喜欢它将手臂低垂到地面，还是向上移动到天花板。在这项研究中，研究小组使用了较慢的单问题调查方法，但他们计划在以后的工作中整合多问题调查。

在测试中，研究小组发现，将演示和调查结合起来比仅仅指定偏好要快得多，而且与单独的演示相比，大约80%的人更喜欢使用组合系统训练机器人时的表现。

萨迪格说:“这是更好地了解人们对机器人的期望的一步。”“我们的工作使人类与机器人的互动和教学变得更容易、更高效，我对进一步开展这项工作感到兴奋，尤其是在研究机器人和人类如何相互学习方面。”

使用这两种方法的人报告说，他们很难理解系统的一些问题，这些问题有时要求他们在两种似乎相同或似乎与任务无关的场景中做出选择——这是基于偏好的学习中的一个常见问题。研究人员希望通过更简单、更快捷的调查来解决这个问题。

帕兰说:“展望未来，在我看来，实现奖励功能的正确方法并不是百分之百显而易见的，但实际上，你将会有某种组合，可以用人类的投入来解决复杂的情况。”“能够为自主系统设计奖励功能是一个大而重要的问题，在学术界并没有得到应有的重视。”

团队还对他们的系统的变化感兴趣，这将允许人们同时为不同的场景创建奖励功能。例如，一个人可能想让他的车在慢速行驶时开得更保守，在交通量小的时候开得更猛。

这份2019年RSS论文的联合作者包括斯坦福大学的本科生格莱布·舍夫查克(Gleb Shevchuk)和研究生尼古拉斯·c·兰多菲(Nicholas C. Landolfi)。

本研究由丰田研究所和未来生命研究所资助。

要阅读有关斯坦福科学的所有故事，请订阅《斯坦福科学文摘》(Stanford science Digest)。