分类
麻省理工学院新闻

恢复“丢失的尺寸”的图像和视频

模型可以从运动模糊图像和“角摄像头”中重建视频,也许有一天可以从2D医学图像中检索3D数据。

麻省理工学院的研究人员开发了一种模型,可以恢复从图像和视频中丢失的有价值的数据。

该模型可用于从运动模糊图像或新型摄像机中重建视频,这些摄像机可以捕捉到人们在角落里的运动,但只能是模糊的一维线条。虽然还需要更多的测试,但研究人员认为,这种方法有一天可能会被用于将2D医学图像转换成信息更丰富但更昂贵的3D人体扫描,这可能有利于贫穷国家的医学成像。

“在所有这些情况下,一维视觉数据-在时间或空间完全失去,”巴拉科瑞斯南说古,计算机科学与人工智能实验室的一位博士后(CSAIL)和第一作者的一篇论文描述了模型中,这是在下周的计算机视觉国际会议。“如果我们能恢复失去的维度,它可以有很多重要的应用。”

被捕获的视觉数据经常将多个时间和空间维度的数据折叠成一个或两个维度,称为“投影”。例如,x光可以将解剖学结构的三维数据压缩成平面图像。或者,考虑一个长时间曝光的恒星在天空中移动的镜头:恒星的位置随着时间的推移而改变,在静止镜头中呈现出模糊的条纹。

同样,麻省理工学院(MIT)最近发明的“转角摄像头”(corner cameras)也能探测到人们在角落里的移动。这些可能对消防员在燃烧的建筑物中找到人有帮助。但这些相机并不是很好用。目前,它们只能做出类似于模糊的、弯弯曲曲的线条的投影,与人的轨迹和速度相对应。

研究人员发明了一种“视觉投影”模型,该模型利用神经网络“学习”将低维投影与原始高维图像和视频匹配的模式。给定新的投影,该模型使用它所学的知识从投影中重新创建所有原始数据。

在实验中,该模型通过从类似于角部摄像机产生的一维单线中提取信息,合成了显示人们行走的精确视频帧。该模型还从流行的移动MNIST数据集中恢复了屏幕上移动的数字的单一、运动模糊投影的视频帧。

论文中加入Balakrishnan的有:Amy Zhao,电气工程与计算机科学(EECS)和CSAIL系的研究生;EECS教授John Guttag, Fredo Durand和William T. Freeman;以及阿德里安·达尔卡,哈佛医学院放射学的一名教员。

线索以像素为单位

Balakrishnan说,这项工作一开始是一个“很酷的倒置问题”,目的是在长曝光摄影中重现导致运动模糊的运动。在投影的象素中,存在着关于高维光源的一些线索。

例如,拍摄长曝光照片的数码相机基本上会在每个像素上聚集一段时间的光子。在捕捉物体随时间的移动时,相机将取移动捕捉像素的平均值。然后,它将这些平均值应用于静止图像的相应高度和宽度,从而产生物体轨迹的模糊条纹。通过计算像素强度的一些变化,理论上可以重现运动。

正如研究人员意识到的那样,这个问题在很多领域都存在:例如,x射线可以捕获解剖结构的高度、宽度和深度信息,但他们使用类似的像素平均技术将深度折叠成2D图像。2017年,弗里曼、杜兰德和其他研究人员发明了角摄像头,捕捉隐藏场景周围的反射光信号,这些信号携带着一个人与墙壁和物体之间距离的二维信息。像素平均技术然后将数据压缩成一维视频——基本上是在一条直线上测量不同长度的时间。 

研究人员建立了一个基于卷积神经网络(CNN)的通用模型,这是一个机器学习模型,它已经成为图像处理任务的强大引擎,它可以捕获平均像素中任何丢失维度的线索。

合成信号

在训练中,研究人员向CNN提供了数千对投影和它们的高维源,即所谓的“信号”。“CNN在与信号匹配的投影中学习像素模式。驱动CNN的是一个叫做“变分自编码器”的框架,它通过统计概率来评估CNN输出与输入的匹配程度。从那里,模型学习一个“空间”的所有可能的信号,可以产生一个给定的投影。从本质上讲,这为如何从投影到所有可能匹配的信号创建了一种类型的蓝图。

当显示之前未见过的投影时,模型会记录像素模式,并根据蓝图找到所有可能产生该投影的信号。然后,它合成新的图像,将所有的投影数据和所有的信号数据结合起来。这再现了高维信号。

在一个实验中,研究人员收集了30人在特定区域行走的35个视频数据集。他们把所有的框架都折叠成投影,用来训练和测试模型。从一套保留下来的6个看不见的投影中,这个模型精确地重现了24帧人的步态,包括他们的腿的位置和他们走向或离开摄像机时的身高。例如,这个模型似乎知道,随着时间的推移,像素变得更暗更宽,可能对应的是一个人走近相机。

Balakrishnan说:“我们能够恢复这些细节,就像变魔术一样。”

研究人员没有在医学图像上测试他们的模型。但他们现在正与康奈尔大学的同事合作,在不增加成本的情况下,从2D医学图像(如x射线)中恢复3D解剖学信息——这可以在较贫穷的国家实现更详细的医学成像。医生们更喜欢3D扫描,比如CT扫描,因为它们包含了更多有用的医疗信息。但是CT扫描通常是困难和昂贵的获取。

“如果我们能将x射线转换成CT扫描,那将在某种程度上改变游戏规则,”Balakrishnan说。“你只需拍一张x光片,通过我们的算法,就能看到所有丢失的信息。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/model-lost-data-images-video-1016