Tool transforms world landmark photos into 4D experiences

康奈尔大学的研究人员利用公开的游客照片，如罗马的特莱维喷泉或纽约的岩石之巅，开发出一种方法来创建可操作的3D图像，显示其外观随时间的变化。

这种方法采用了深度学习的方法，消化并合成了数万张大多没有标记和日期的照片，解决了60年来计算机视觉专家一直无法解决的问题。

“这是一个场景建模的新方法,不仅允许你移动你的头,看看,说,喷泉从不同的观点,但也给你控制改变时间,”诺亚Snavely说,副教授的康奈尔大学的计算机科学技术和资深作者“Crowdsampling Plenoptic函数,提出了在欧洲计算机视觉,几乎8月举行。

“如果你真的在假期去了特莱维喷泉，它的样子将取决于你去的时间——晚上，喷泉底部会被泛光灯照亮。在下午，它将是阳光明媚的，除非你去一个阴天，”Snavely说。“我们根据时间和天气，从这些无组织的照片收集中，了解了外观的整个范围，这样你就可以探索整个范围，同时在场景中移动。”

用逼真的方式表现一个地方对传统的计算机视觉来说是一个挑战，部分原因是要复制的纹理数量太多。Snavely说:“真实世界的外观是如此的多样化，材料也各不相同——闪亮的东西，水，薄的结构。”

另一个问题是现有数据的不一致。描述某物在时空上的每一种可能的视角——被称为全光功能——是一项可管理的任务，因为在一个场景周围安装了数百个网络摄像头，不分昼夜地记录数据。但由于这是不实际的，研究人员必须开发一种补偿方法。

Snavely说:“数据中可能没有从这个角度拍摄的下午4点的照片。所以我们必须从一个地点拍摄的下午9点的照片和另一个地点拍摄的下午4点03分的照片中了解。”“我们不知道这些照片是什么时候拍摄的。但通过深度学习，我们可以推断出场景在任何特定时间和地点的样子。”

研究人员介绍了一种新的场景表示称为深多平面图像插值外观在四维-三维，加上变化的时间。他们的方法部分受到了华特迪士尼公司在20世纪30年代开发的一种经典动画技术的启发，这种技术使用透明的图层来创建3D效果，而不用重新绘制场景的每个方面。

Snavely说:“我们使用在2D动画中创建3D效果的相同想法来在真实场景中创建3D效果，通过将它与游客照片中所有这些不同的测量值相匹配来创建这个深层的多层图像。”“有趣的是，它源自于在动画中使用的这种非常古老、经典的技术。”

在这项研究中，他们表明，这个模型可以通过训练，使用Flickr和Instagram等网站上的5万张公开图片创建一个场景。这种方法对计算机视觉研究和虚拟旅游都有意义——在很少人能够亲自旅行的时候特别有用。

Snavely说:“你可以感受到真实存在的感觉。”“它在一系列场景中效果出奇的好。”

论文的第一作者是康奈尔大学理工学院博士生李正奇。计算机与信息科学学院的计算机科学助理教授Abe Davis和康奈尔大学理工学院博士生Wenqi Xian也做出了贡献。

这项研究得到了慈善家、谷歌公司前首席执行官埃里克·施密特和温迪·施密特的部分支持，他们还提出了“施密特期货计划”。

康奈尔大学纪事报
312 College Ave
，纽约州伊萨卡市14850
607-255-4206
[email protected]