AI 模型加速高分辨率计算机视觉

A busy city intersection where a bus is colored blue and pedestrians are colored red.

From the autonomous vehicle’s perspective in a busy city, people are colored red, cars are blue, and trees are green.

自动驾驶汽车必须快速准确地识别它遇到的物体，从停在拐角处的空转送货卡车到呼啸而过的十字路口的骑自行车的人。

为此，车辆可能会使用强大的计算机视觉模型对该场景的高分辨率图像中的每个像素进行分类，因此它不会忽视可能在较低质量图像中被遮挡的对象。但是这项被称为语义分割的任务很复杂，当图像具有高分辨率时需要大量的计算。

来自麻省理工学院、麻省理工学院-IBM 沃森人工智能实验室和其他地方的研究人员开发了一种更高效的计算机视觉模型，大大降低了这项任务的计算复杂性。他们的模型可以在硬件资源有限的设备上实时准确地执行语义分割，例如使自动驾驶汽车能够做出瞬间决策的车载计算机。

播放视频

最近最先进的语义分割模型直接学习图像中每对像素之间的交互，因此它们的计算随着图像分辨率的提高而二次增长。正因为如此，虽然这些模型是准确的，但它们太慢，无法在传感器或手机等边缘设备上实时处理高分辨率图像。

麻省理工学院的研究人员为语义分割模型设计了一个新的构建块，该模型实现了与这些最先进的模型相同的功能，但只有线性计算复杂性和硬件高效的操作。

其结果是用于高分辨率计算机视觉的新模型系列，当部署在移动设备上时，其性能比以前的模型快九倍。重要的是，这个新型号系列表现出与这些替代品相同或更好的精度。

这项技术不仅可以用于帮助自动驾驶汽车实时做出决策，还可以提高其他高分辨率计算机视觉任务的效率，例如医学图像分割。

“虽然研究人员已经使用传统的视觉变压器很长时间了，并且它们给出了惊人的结果，但我们希望人们也关注这些模型的效率方面。我们的工作表明，可以大幅减少计算，因此这种实时图像分割可以在设备上本地发生，“电气工程与计算机科学系（EECS）副教授，麻省理工学院 – IBM Watson AI实验室成员，描述新模型的论文的高级作者Song Han说。

他与主要作者，EECS研究生Han Cai一起参加了论文;李俊彦，浙江大学本科生;清华大学本科生胡沐彦;以及麻省理工学院-IBM沃森人工智能实验室的首席研究员庄甘。这项研究将在计算机视觉国际会议上发表。

简化的解决方案

对可能具有数百万像素的高分辨率图像中的每个像素进行分类对于机器学习模型来说是一项艰巨的任务。最近，一种强大的新型模型（称为视觉变压器）得到了有效使用。

转换器最初是为自然语言处理而开发的。在这种情况下，他们将句子中的每个单词编码为标记，然后生成一个注意力图，该地图捕获每个令牌与所有其他令牌的关系。此注意力图可帮助模型在进行预测时了解上下文。

使用相同的概念，视觉转换器将图像切成像素块，并在生成注意力图之前将每个小补丁编码为标记。在生成此注意力图时，模型使用相似性函数直接学习每对像素之间的交互作用。通过这种方式，该模型开发了所谓的全局感受野，这意味着它可以访问图像的所有相关部分。

由于高分辨率图像可能包含数百万个像素，分成数千个补丁，因此注意力图很快就会变得巨大。因此，随着图像分辨率的增加，计算量呈二次增长。

在他们名为EfficientViT的新模型系列中，麻省理工学院的研究人员使用了一种更简单的机制来构建注意力图——用线性相似性函数代替非线性相似性函数。因此，他们可以重新排列操作顺序以减少总计算，而不会更改功能并丢失全局感受域。使用他们的模型，预测所需的计算量随着图像分辨率的增长而线性增长。

“但是没有免费的午餐。线性注意力只捕获有关图像的全局上下文，丢失本地信息，这使得准确性变差，“韩说。

为了弥补这种准确性损失，研究人员在他们的模型中加入了两个额外的组件，每个组件只增加了少量的计算。

其中一个元素有助于模型捕获局部特征交互，减轻线性函数在局部信息提取中的弱点。第二个模块支持多尺度学习，帮助模型识别大型和小型对象。

“这里最关键的部分是我们需要仔细平衡性能和效率，”蔡说。

他们设计的EfficientViT具有硬件友好的架构，因此可以更轻松地在不同类型的设备上运行，例如虚拟现实耳机或自动驾驶汽车上的边缘计算机。他们的模型也可以应用于其他计算机视觉任务，如图像分类。

简化语义分割

当他们在用于语义分割的数据集上测试他们的模型时，他们发现它在 Nvidia 图形处理单元（GPU）上的执行速度比其他流行的视觉转换器模型快九倍，具有相同或更好的准确性。

“现在，我们可以两全其美，并减少计算，使其足够快，我们可以在移动和云设备上运行它，”韩说。

基于这些结果，研究人员希望应用这种技术来加速生成机器学习模型，例如用于生成新图像的模型。他们还希望继续扩大EfficientViT的扩展，以执行其他视觉任务。

“由宋汉教授的团队开创的高效变压器模型现在构成了各种计算机视觉任务（包括检测和分割）尖端技术的支柱，”AMD公司人工智能算法高级总监Lu Tian说，他没有参与本文。“他们的研究不仅展示了变压器的效率和能力，而且还揭示了它们在实际应用中的巨大潜力，例如提高视频游戏的图像质量。

“模型压缩和轻量级模型设计是高效AI计算的关键研究课题，特别是在大型基础模型的背景下。韩松教授的团队在压缩和加速现代深度学习模型（尤其是视觉转换器）方面取得了显着进展，“甲骨文人工智能和机器学习全球副总裁杰伊·杰克逊（Jay Jackson）补充道，他没有参与这项研究。“Oracle 云基础设施一直在支持他的团队推进这一有影响力的研究，以实现高效和绿色的 AI。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2023/ai-model-high-resolution-computer-vision-0912