分类
麻省理工学院新闻

从局部看整体

在观看照片并根据过去的经验绘制时,人们通常可以在本身完全平坦的照片中感知深度。然而,让电脑做同样的事情被证明是相当具有挑战性的。

这个问题的困难有几个原因,其中之一是,当一个发生在三维的场景被简化为二维(2D)表示时,信息不可避免地会丢失。有一些成熟的策略可以从多个2D图像中恢复3D信息,但它们都有一些局限性。麻省理工学院和其他机构的研究人员开发了一种名为“虚拟通信”的新方法,可以克服这些缺点,并在传统方法无法奏效的情况下取得成功。

Video thumbnail Play video
Existing methods that reconstruct 3D scenes from 2D images rely on the images that contain some of the same features. Virtual correspondence is a method of 3D reconstruction that works even with images taken from extremely different views that do not show the same features.

这种标准的方法被称为“从运动中获得结构”,它是以人类视觉的一个关键方面为模型的。因为我们的眼睛是分开的,所以每只眼睛对一个物体的看法都略有不同。可以形成一个三角形,其边包括连接两个眼睛的线段,加上将每个眼睛连接到所讨论的物体上的公共点的线段。知道了三角形的角度和两眼之间的距离,就有可能用初等几何来确定到那个点的距离——当然,人类的视觉系统可以对距离做出粗略的判断,而不需要进行繁重的三角计算。几个世纪以来,天文学家一直利用同样的基本思想——三角测量或视差观测——来计算到遥远恒星的距离。

三角剖分是从运动到结构的关键要素。假设您有一个物体的两张图片——例如,一个兔子雕塑——一张从这个物体的左边拍摄,另一张从右边拍摄。第一步是在兔子的表面上找到两个图像共享的点或像素。研究人员可以从那里确定两台相机的“姿势”——照片拍摄的位置和每个相机面对的方向。知道了摄像机之间的距离和它们的方向,人们就可以用三角测量法计算出到兔子身上选定点的距离。如果识别出足够多的共同点,就有可能对物体(或“兔子”)的整体形状有一个详细的感觉。

麻省理工学院电子工程与计算机科学系(EECS)的博士生Wei-Chiu Ma评论说,这项技术已经取得了相当大的进步,“现在人们匹配像素的准确度越来越高。只要我们可以在不同的图像上观察同一个点,我们就可以使用现有的算法来确定相机之间的相对位置。”但这种方法只适用于两幅图像有很大重叠的情况。他补充说,如果输入的图像有非常不同的视角——因此只有很少的共同点——“系统可能会失败。”

在2020年夏天,马云提出了一种新颖的做事方式,可以从运动中极大地扩展结构的范围。当时麻省理工学院因为疫情而关闭,而马云正在台湾的家里的沙发上休息。当他看着他的手掌,尤其是他的指尖时,他突然想到他可以清楚地描绘出他的指甲,尽管他看不见它们。

这就是虚拟通信概念的灵感来源,随后,马云和他的导师、EECS教授、计算机科学与人工智能实验室研究员安东尼奥·托拉尔巴(Antonio Torralba),以及多伦多大学的杨安琪、拉奎尔·乌尔塔松(Raquel Urtasun)和伊利诺伊大学的王神龙(Shenlong Wang)一起研究了这个概念。“我们想把人类的知识和推理整合到我们现有的3D算法中”,马云说,同样的推理使他能够看着自己的指尖,然后变出另一边的指甲——他看不到的那一边。

当两幅图像有共同的点时,运动中的结构就会起作用,因为这意味着总是可以绘制一个三角形将摄像机连接到共同的点,从而可以从中收集深度信息。虚拟通信提供了一种进一步沟通的方式。再一次假设,从兔子的左侧拍摄一张照片,从右侧拍摄另一张照片。第一张照片可能会显示兔子左腿上的一个斑点。但由于光是直线传播的,我们可以利用兔子的解剖学常识来知道从相机到腿的光线会从兔子的另一侧出现在哪里。这个点可能在另一张图像中可见(从右边拍摄),如果是这样,它可以通过三角测量来计算第三维度的距离。

虚拟对应,换句话说,允许人们从兔子左边的第一张图像上取一个点,并将它与兔子看不见的右边的一个点连接起来。“这样做的好处是,你不需要重叠图像来进行操作,”Ma指出。“通过观察物体的另一端,这种技术提供了最初不可用的共同点。”这样,传统方法所受的限制就可以被规避。

有人可能会问,这需要多少先验知识,因为如果你必须从一开始就知道图像中所有东西的形状,就不需要计算。马和他的同事们采用的技巧是利用图像中某些熟悉的物体——比如人的形状——作为一种“锚”,他们已经设计了一些方法,利用我们对人的形状的知识来帮助确定相机的姿势,在某些情况下,推断图像的深度。此外,马军解释说:“我们算法中内置的先验知识和常识首先是由神经网络捕获和编码的。”

马云说,这个团队的最终目标要远大得多。“我们希望制造出能像人类一样理解三维世界的计算机。”他承认,这一目标仍远未实现。“但要超越我们今天的水平,建立一个像人类一样运作的系统,我们需要一个更具挑战性的环境。换句话说,我们需要开发出不仅能解读静止图像,还能理解短视频片段,最终能理解全长电影的计算机。”

电影《心灵捕手》中的一个场景证明了他的想法。观众可以看到马特·达蒙和罗宾·威廉姆斯坐在波士顿公共花园的长椅上,俯瞰着一个池塘。下一张照片从对面拍摄,可以看到达蒙和威廉姆斯在完全不同的背景下正面的照片(虽然他们都穿着衣服)。每个看电影的人都马上知道他们看到的是同一个人,即使这两个镜头没有任何共同点。计算机还不能实现这种概念上的飞跃,但马云和他的同事们正在努力使这些机器更熟练,至少在视觉方面更像我们。

该团队的工作将在下周的计算机视觉和模式识别会议上展示。

文章旨在传播新闻信息,原文请查看https://news.mit.edu/2022/seeing-whole-from-some-parts-0617