新算法为计算机视觉解锁高分辨率见解

Photo illustration: At left, a photo of two puffins on a grassy cliff. At right is a heavily pixelated version of the photo, with a magnifying glass showing one of the puffins not pixelated but blurred. The pixelated/zoomed in area is in a mix of bright colors.

想象一下，自己瞥了一眼一条繁忙的街道一会儿，然后试图勾勒出你从记忆中看到的场景。大多数人可以画出汽车、人和人行横道等主要物体的粗略位置，但几乎没有人能以像素完美的精度画出每个细节。对于大多数现代计算机视觉算法来说也是如此：它们在捕捉场景的高级细节方面非常出色，但在处理信息时会丢失细粒度的细节。

现在，麻省理工学院的研究人员创建了一个名为“FeatUp”的系统，该系统可以让算法同时捕获场景的所有高级和低级细节——几乎就像计算机视觉的激光眼科手术一样。

当计算机通过查看图像和视频来学习“看”时，它们会通过所谓的“特征”来建立场景中的“想法”。为了创建这些特征，深度网络和视觉基础模型将图像分解为一个由小方块组成的网格，并将这些方块作为一个组进行处理，以确定照片中发生了什么。每个小方块通常由 16 到 32 像素组成，因此这些算法的分辨率比它们处理的图像要小得多。在试图总结和理解照片时，算法会失去大量的像素清晰度。

FeatUp 算法可以阻止这种信息丢失，并在不影响速度或质量的情况下提高任何深度网络的分辨率。这使研究人员能够快速轻松地提高任何新算法或现有算法的分辨率。例如，想象一下，试图解释肺癌检测算法的预测，目的是定位肿瘤。在使用类激活图（CAM）等方法解释算法之前应用FeatUp可以根据模型产生更详细（16-32x）的肿瘤可能位置视图。

FeatUp 不仅可以帮助从业者理解他们的模型，还可以改进一系列不同的任务，如对象检测、语义分割（为带有对象标签的图像中的像素分配标签）和深度估计。它通过提供更准确、高分辨率的功能来实现这一目标，这对于构建从自动驾驶到医学成像的视觉应用至关重要。

“所有计算机视觉的本质都在于这些从深度学习架构的深处涌现出来的深度智能功能。现代算法的最大挑战在于，它们将大图像简化为非常小的“智能”特征网格，获得智能见解，但丢失了更精细的细节，“麻省理工学院电气工程和计算机科学博士生马克·汉密尔顿说，麻省理工学院计算机科学和人工智能实验室（CSAIL）附属机构，也是有关该项目的论文的共同主要作者。“FeatUp 有助于实现两全其美：具有原始图像分辨率的高度智能表示。这些高分辨率功能显著提高了一系列计算机视觉任务的性能，从增强目标检测和改进深度预测，到通过高分辨率分析更深入地了解网络的决策过程。

分辨率复兴

随着这些大型 AI 模型变得越来越普遍，越来越需要解释他们在做什么、他们在看什么以及他们在想什么。

但是，FeatUp究竟如何发现这些细粒度的细节呢？奇怪的是，秘诀在于摆动和摇晃的图像。

特别是，FeatUp应用了细微的调整（例如将图像向左或向右移动几个像素），并观察算法如何响应图像的这些轻微移动。这会产生数百个深度特征地图，这些地图都略有不同，可以将它们组合成一组清晰、高分辨率的深度特征。“我们想象存在一些高分辨率特征，当我们摆动它们并模糊它们时，它们将与摆动图像中所有原始的低分辨率特征相匹配。我们的目标是学习如何使用这个’游戏’将低分辨率特征细化为高分辨率特征，让我们知道我们做得如何，“汉密尔顿说。此方法类似于算法如何通过确保预测的 3D 对象与用于创建它的所有 2D 照片匹配，从多个 2D 图像创建 3D 模型。在FeatUp的案例中，他们预测了一个高分辨率的特征图，该特征图与通过抖动原始图像形成的所有低分辨率特征图一致。

该团队指出，PyTorch 中可用的标准工具不足以满足他们的需求，并引入了一种新型的深度网络层，以寻求快速有效的解决方案。他们的自定义层是一种特殊的联合双边上采样操作，其效率比 PyTorch 中的朴素实现高出 100 倍以上。该团队还表明，这个新层可以改进各种不同的算法，包括语义分割和深度预测。该层提高了网络处理和理解高分辨率细节的能力，使任何使用它的算法都获得了显著的性能提升。

“另一个应用是小对象检索，我们的算法允许精确定位对象。例如，即使在杂乱无章的道路场景中，使用 FeatUp 丰富的算法也能看到交通锥、反射器、灯光和坑洼等微小物体，而这些物体的低分辨率表亲无法看到这些物体。这证明了它能够将粗略的特征增强为精细的信号，“加州大学伯克利分校的博士生Stephanie Fu ’22，MNG ’23说，他是新FeatUp论文的另一位共同主要作者。“这对于时间敏感的任务尤其重要，例如在无人驾驶汽车中在杂乱的高速公路上精确定位交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高此类任务的准确性，而且还可以使这些系统更加可靠、可解释和值得信赖。

接下来呢？

关于未来的愿望，该团队强调了FeatUp在研究界内外的广泛采用，类似于数据增强实践。“我们的目标是使这种方法成为深度学习的基本工具，丰富模型以更详细地感知世界，而不会出现传统高分辨率处理的计算效率低下，”Fu说。

“FeatUp代表了一个美妙的进步，通过以全图像分辨率生成视觉表示，使视觉表示真正有用，”康奈尔大学计算机科学教授Noah Snavely说，他没有参与这项研究。“在过去的几年里，学习的视觉表现已经变得非常好，但它们几乎总是以非常低的分辨率产生——你可能会放一张漂亮的全分辨率照片，然后得到一个微小的、邮票大小的特征网格。如果要在生成全分辨率输出的应用程序中使用这些功能，则这是一个问题。FeatUp通过将超分辨率的经典思想与现代学习方法相结合，以创造性的方式解决了这个问题，从而产生了精美的高分辨率特征图。

“我们希望这个简单的想法能够得到广泛的应用。它提供了我们以前认为只能是低分辨率的图像分析的高分辨率版本，“资深作者William T. Freeman说，他是麻省理工学院电气工程和计算机科学教授，也是CSAIL成员。

主要作者 Fu 和 Hamilton 由麻省理工学院博士生 Laura Brandt SM ’21 和 Axel Feldmann SM ’21，以及 Zhoutong Zhang SM ’21、PhD ’22 陪同，他们都是麻省理工学院 CSAIL 的现任或前任附属机构。他们的研究部分得到了美国国家科学基金会研究生研究奖学金、美国国家科学基金会和国家情报总监办公室、美国空军研究实验室和美国空军人工智能加速器的支持。该小组将于5月在学习表征国际会议上展示他们的工作。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2024/featup-algorithm-unlocks-high-resolution-insights-computer-vision-0318