全动允许更好的视频运动估计

康奈尔大学的研究人员开发了一种新的优化工具来估计整个输入视频的运动，这在视频编辑和生成AI视频创建方面具有潜在的应用。

这个名为OmniMotion的工具在10月2日至6日在巴黎举行的国际计算机视觉会议上发表的一篇论文“跟踪一切，无处不在，一次全部”中进行了描述。

“运动估计中有两种主导范式 – 光流，密集但距离短，以及特征跟踪，稀疏但长距离，”康奈尔理工学院和康奈尔安S.鲍尔斯计算与信息科学学院计算机科学副教授Noah Snavely说。“我们的方法使我们能够在时间上进行密集和远程跟踪。

OmniMotion使用研究人员所说的“准3D表示” – 一种宽松的3D形式，保留重要属性（例如当像素经过其他物体后面时跟踪像素），而没有动态3D重建的挑战。

“我们找到了一种方法，基本上可以估计更多的定性3D，”Snavely说。“它说，’我不知道这两个物体在3D空间中的确切位置，但我知道这个物体在那个物体的前面。你不能把它看作是一个3D模型，因为东西会被扭曲，但它捕捉到了对象之间的排序关系。

新方法采用一小部分帧和运动估计样本，为整个视频创建完整的运动表示。优化后，可以使用任何帧中的任何像素查询表示，以在整个视频中产生平滑、准确的运动轨迹。

Snavely说，当将计算机生成的图像（CGI）合并到视频编辑中时，这将是有用的。

“如果我想在视频上放置一个物体 – 比如贴纸 – 那么我需要知道它应该在每一帧中的位置，”他说。“所以我把它放在视频的第一帧;为了避免以艰苦的方式编辑每一帧后续帧，如果我能跟踪它在每一帧中应该在哪里，以及它不应该在那里，如果有东西遮挡它，那就太好了。

Snavely说，OmniMotion还可以帮助为生成文本到视频应用程序中的算法提供信息。

“通常这些文本到视频的模型不是很连贯，”他说。“物体会在视频过程中改变大小，或者人们以不可思议的方式移动，那是因为它们只是生成视频的原始像素。他们对会导致像素运动的潜在动态没有任何概念。

“我们希望通过提供估计视频中运动的算法，我们可以帮助提高生成视频的运动连贯性，”他说。

Qianqian Wang，博士’23，加州大学伯克利分校的博士后研究员，谷歌研究的研究科学家，是第一作者。其他合著者是康奈尔鲍尔斯独联体计算机科学助理教授巴拉特·哈里哈兰;博士生张延宇和蔡若金;以及伯克利博士后研究员、谷歌研究院科学家亚历山大·霍林斯基;以及谷歌研究院的李正琪。

同样在会议上，蔡还介绍了“分身：学习消除相似结构图像的歧义”，该数据集使用大量图像对数据集来训练计算机视觉应用程序，以区分看起来相同但不是的图像，就像钟楼或建筑物的不同侧面一样。

对于分身，Snavely和他的团队展示了如何使用存储在维基共享资源图像数据库中的现有图像注释来自动创建大量3D表面的标记图像对。

分身包括一系列地标和文化遗址的互联网照片，这些照片表现出重复的图案和对称的结构。该数据集包括大量图像对 – 每个图像对标记为正或负匹配对。

“大本钟或埃菲尔铁塔 – 它们从不同的侧面看起来都是一样的，”Snavely说。“计算机视觉还不足以区分双方。因此，我们发明了一种方法来帮助判断两件事何时看起来相似但不同，以及何时两件事确实相同。

在分身中，神经网络被训练来评估图像中关键点的空间分布，以区分看起来相似但不同的图像对 – 就像大本钟的两个不同面孔 – 与实际相同场景内容的图像。这将在3D重建技术中很有用，Snavely说。

“网络可能会学习背景是相同还是不同，或者是否有其他细节可以区分它们，”他说。“然后它输出一个概率：这些真的匹配，还是只是看起来匹配？然后我们可以将其与3D重建管道集成，以制作更好的模型。

蔡是《分身》的主要作者;除了Wang和Hariharan之外，合著者还有计算机科学专业的Joseph Tung ‘ 24;以及特拉维夫大学电气工程助理教授Hadar Averbuch-Elor。

这两篇论文都得到了美国国家科学基金会的部分资助。除了NSF之外，OmniMotion的研究还得到了NVIDIA学术硬件资助和Wang的Google博士奖学金的支持。

新闻旨在传播有益信息，英文版原文来自https://news.cornell.edu/stories/2023/10/omnimotion-allows-better-video-motion-estimation