分类
麻省理工学院新闻

帮助机器感知一些物理定律

当场景中的物体做了一些意想不到的事情时,模型会记录下“惊喜”,这可以用来构建更智能的人工智能。

人类对物质实相的法则有一个早期的理解。例如,婴儿对物体如何移动和相互作用抱有期望,当他们做一些意想不到的事情时,比如在魔术中消失时,他们会表现出惊讶。

现在,麻省理工学院的研究人员设计了一个模型,该模型展示了对一些基本的“直觉物理学”的理解,即物体应该如何运动。该模型可用于帮助构建更智能的人工智能,并反过来提供信息,帮助科学家理解婴儿的认知。

该模型被称为ADEPT,它可以观察场景中移动的物体,并根据物体的物理特性预测物体的运动方式。在跟踪目标时,模型在每个视频帧输出一个与“惊喜”级别相关的信号——信号越大,惊喜越大。如果一个物体与模型的预测严重不匹配——比如,通过消失或传送穿过一个场景——它的惊讶程度将会激增。

在视频中,物体以看似合理和难以置信的方式移动,作为对视频的回应,该模型记录下的惊讶程度与观看相同视频的人报告的惊讶程度一致。 

“婴儿3个月大的时候,他们有一些概念对象不眨眼的存在,并通过彼此不能移动或传送,”第一作者凯文·a·史密斯说的研究科学家脑与认知科学系的(BCS)和大脑中心的一员,思想,和机器(CBMM)。“我们想捕捉并将这些知识正式化,将婴儿的认知能力构建成人工智能智能体。我们现在正在接近类人模型,用这种方式来分辨基本的不可信或似是而非的场景。”

与史密斯一起撰写论文的还有电子工程与计算机科学系的本科生梅玲洁(音)和BCS研究科学家姚顺宇(音);吴家俊博士,19年;CBMM调查员Elizabeth Spelke;Joshua B. Tenenbaum,计算认知科学教授,CBMM、BCS和计算机科学与人工智能实验室(CSAIL)研究员;CBMM研究者Tomer D. Ullman博士’ 15。

不匹配的现实

ADEPT依赖于两个模块:一个“逆图形”模块从原始图像中捕获对象表示,另一个“物理引擎”从可能性分布中预测对象的未来表示。

逆图形基本上是从像素输入中提取对象的信息,如形状、姿态和速度。该模块以图像的形式捕获视频帧,并使用逆图形从场景中的对象中提取这些信息。但它不会纠缠于细节。ADEPT只需要对每个形状进行一些近似的几何运算。在某种程度上,这有助于模型将预测推广到新对象,而不仅仅是那些它所训练的对象。

“一个物体是矩形还是圆形,是卡车还是鸭子都无所谓。内行人只是看到有一个物体处于某种位置,以某种方式移动,从而做出预测,”史密斯说。“同样,年幼的婴儿在进行物理预测时,似乎也不太在意形状等一些属性。”

这些粗糙的对象描述被输入到一个物理引擎——一个模拟物理系统行为的软件,例如刚体或流态体,通常用于电影、视频游戏和计算机图形学。研究人员的物理引擎“推动物体在时间上前进,”Ullman说。这就产生了一系列的预测,或者说是一个“信念分布”,来预测下一帧这些物体会发生什么。

接下来,模型观察实际的下一帧。它再次捕获对象表示,然后根据其信念分布将其与一个预测对象表示对齐。如果物体遵循物理定律,两种表述之间就不会有太多的不匹配。另一方面,如果物体做了一些难以置信的事情——比如说,它从墙后面消失了——就会产生很大的不匹配。

然后ADEPT从它的信念分布中重新分析,并注意到物体消失的可能性非常低。如果有一个足够低的概率,该模型将巨大的“惊喜”记录为信号峰值。基本上,惊讶与事件发生的概率成反比。如果概率很低,信号峰值就很高。 

“如果一个物体在墙后面,你的物理引擎会认为这个物体仍然在墙后面。如果墙倒了,那里什么也没有,那就错配了。“然后,模型说,‘我的预测中有一个物体,但我什么也没看到。唯一的解释是它消失了,所以这很令人惊讶。’”

违反了预期

在发展心理学中,研究人员进行了“违反预期”的测试,给婴儿看几组视频。其中一段视频展示了一个看似合理的事件,物体遵循着它们对世界如何运转的预期观念。另一个视频在各个方面都是一样的,除了对象的行为在某种程度上违反了预期。研究人员通常会用这些测试来测量婴儿在难以置信的行为发生后看一个场景的时间。研究人员假设,他们凝视的时间越长,对刚刚发生的事情就会越惊讶或感兴趣。

在他们的实验中,研究人员基于经典的发展研究创建了几个场景来检验模型的核心对象知识。他们聘请了60名成年人观看了64段视频,这些视频展示了已知的物理上可信和物理上不可信的场景。例如,物体会移动到墙后,当墙倒下时,它们仍然在那里或消失了。参与者给他们在不同时刻的惊讶程度打分,分值从0到100。然后,研究人员向模型展示了同样的视频。具体地说,这些场景检验了模型捕捉持久性(对象不会无缘无故地出现或消失)、连续性(对象沿着连接的轨迹移动)和坚固性(对象不能彼此移动)概念的能力。

内行人在视频中与人类的匹配度尤其高,视频中物体在墙后移动,当墙被移开时消失。有趣的是,该模型还匹配了视频中的惊讶程度,人类对此并不感到惊讶,但也许应该感到惊讶。例如,在一段视频中,一个以一定速度移动的物体消失在墙后,并立即从另一边出来,这个物体可能在它跑到墙后时急剧加速,或者它可能传送到另一边。总的来说,人类和内行人都不太确定这个事件是否令人惊讶。研究人员还发现,从观察中学习物理的传统神经网络——但并不明确地表示物体——在区分令人惊讶的场景和不令人惊讶的场景方面的准确率要低得多,而且他们选择的令人惊讶的场景往往与人类的不一致。

下一步,研究人员计划进一步研究婴儿观察和学习世界的方式,目的是将任何新发现纳入他们的模型。例如,研究表明,直到一定年龄的婴儿实际上对物体在某些方面完全改变并不感到惊讶——比如,一辆卡车消失在墙后,但又以鸭子的形式出现。

史密斯说:“我们想知道还需要什么来更像婴儿一样理解这个世界,并将我们对心理学的了解正式化,从而建立更好的人工智能代理。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/adept-ai-machines-laws-physics-1202