图像识别准确性：一个看不见的挑战，使当今的人工智能感到困惑

3 by 6 grid of photos. Rows depict tennis rackets, measuring tape/rulers, and hammers. Along the bottom are time measurements from 17 milliseconds to 10 seconds, and the objects are increasingly harder to recognize from left to right.

想象一下，您正在滚动浏览手机上的照片，并遇到了一张起初您无法识别的图像。它看起来像沙发上模糊的东西;可能是枕头还是外套？几秒钟后，它发出了咔嗒声——当然！那团绒毛是你朋友的猫，摩卡。虽然你的一些照片可以在瞬间被理解，但为什么这张猫的照片要困难得多？

麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员惊讶地发现，尽管在从医疗保健到交通再到家用设备等关键领域理解视觉数据至关重要，但图像对人类识别困难的概念几乎完全被忽视了。基于深度学习的人工智能进步的主要驱动力之一是数据集，但我们对数据如何推动大规模深度学习的进步知之甚少，除了越大越好之外。

在需要理解视觉数据的实际应用中，尽管模型在当前数据集上表现良好，包括那些明确设计用于挑战具有无偏图像或分布偏移的机器的模型，但人类的表现优于对象识别模型。这个问题仍然存在，部分原因是我们没有关于图像或数据集的绝对难度的指导。如果不控制用于评估的图像的难度，就很难客观地评估人类水平性能的进展，难以涵盖人类能力的范围，并增加数据集带来的挑战。

为了填补这一知识空白，麻省理工学院电气工程和计算机科学博士生、CSAIL附属机构David Mayo深入研究了图像数据集的深层世界，探索了为什么人类和机器比其他图像更难识别某些图像。“有些图像本身需要更长的时间才能识别，因此了解大脑在此过程中的活动及其与机器学习模型的关系至关重要。也许我们目前的模型中缺少复杂的神经回路或独特的机制，只有在具有挑战性的视觉刺激下进行测试时才能看到。这种探索对于理解和增强机器视觉模型至关重要，“梅奥说，他是一篇关于这项工作的新论文的主要作者。

这导致了一个新指标的发展，即“最短观看时间”（MVT），该指标根据一个人在正确识别图像之前需要观看多长时间来量化识别图像的难度。使用ImageNet（机器学习中流行的数据集）和ObjectNet（旨在测试对象识别鲁棒性的数据集）的子集，该团队向参与者展示了从短至17毫秒到长至10秒的不同持续时间的图像，并要求他们从一组50个选项中选择正确的对象。经过超过 200,000 次图像呈现试验，该团队发现，包括 ObjectNet 在内的现有测试集似乎偏向于更简单、更短的 MVT 图像，绝大多数基准性能来自人类容易获得的图像。

该项目确定了模型性能的有趣趋势，特别是在缩放方面。较大的模型在较简单的图像上显示出相当大的改进，但在更具挑战性的图像上进展较少。结合了语言和视觉的 CLIP 模型在朝着更像人类的识别方向发展时脱颖而出。

“传统上，对象识别数据集偏向于不太复杂的图像，这种做法导致了模型性能指标的膨胀，并不能真正反映模型的鲁棒性或处理复杂视觉任务的能力。我们的研究表明，较硬的图像会带来更严峻的挑战，导致分布偏移，这在标准评估中通常没有考虑在内，“Mayo说。“我们发布了按难度标记的图像集以及自动计算 MVT 的工具，使 MVT 能够添加到现有基准测试中并扩展到各种应用程序。其中包括在部署真实世界系统之前测量测试集难度，发现图像难度的神经相关性，以及推进对象识别技术以缩小基准和真实世界性能之间的差距。

“我最大的收获之一是，我们现在有另一个维度来评估模型。我们希望模型能够识别任何图像，即使人类很难识别，尤其是如果。我们是第一个量化这意味着什么的人。我们的研究结果表明，不仅当今最先进的技术并非如此，而且我们目前的评估方法也无法告诉我们何时是这种情况，因为标准数据集如此偏向于简单的图像，“麻省理工学院电气工程和计算机科学研究生Jesse Cummings说，他是该论文的共同第一作者。

从 ObjectNet 到 MVT

几年前，这个项目背后的团队发现了机器学习领域的一个重大挑战：模型正在努力处理分布外的图像，或者在训练数据中没有很好地表示的图像。进入 ObjectNet，这是一个由从现实生活中收集的图像组成的数据集。该数据集通过消除其他基准测试中存在的虚假相关性（例如，对象与其背景之间）的存在，帮助阐明了机器学习模型和人类识别能力之间的性能差距。ObjectNet 揭示了机器视觉模型在数据集上的性能与在实际应用中的性能之间的差距，鼓励许多研究人员和开发人员使用，从而提高了模型性能。

快进到现在，该团队通过MVT将他们的研究向前推进了一步。与专注于绝对性能的传统方法不同，这种新方法通过对比模型对最简单和最难图像的响应来评估模型的性能。该研究进一步探讨了如何解释图像难度，并测试了与人类视觉处理的相似性。使用c分数、预测深度和对抗鲁棒性等指标，该团队发现，网络对较硬图像的处理方式不同。“虽然有一些可观察到的趋势，例如更容易的图像更典型，但科学界仍然无法对图像难度进行全面的语义解释，”梅奥说。

例如，在医疗保健领域，理解视觉复杂性的相关性变得更加明显。人工智能模型解释医学图像（如X射线）的能力受制于图像的多样性和难度分布。研究人员主张对专业人士量身定制的难度分布进行细致分析，确保根据专家标准而不是外行解释来评估人工智能系统。

梅奥和卡明斯目前正在研究视觉识别的神经学基础，探索大脑在处理简单与具有挑战性的图像时是否表现出不同的活动。该研究旨在揭示复杂图像是否招募了通常与视觉处理无关的额外大脑区域，希望有助于揭开我们的大脑如何准确有效地解码视觉世界的神秘面纱。

迈向人类水平的性能

展望未来，研究人员不仅专注于探索增强人工智能对图像难度的预测能力的方法。该团队正在努力确定与观看时间难度的相关性，以便生成更难或更简单的图像版本。

尽管这项研究取得了重大进展，但研究人员承认存在局限性，特别是在将物体识别与视觉搜索任务分离方面。目前的方法确实专注于识别物体，而忽略了杂乱图像带来的复杂性。

Mayo说：“这种全面的方法解决了客观评估物体识别中人类水平表现的进展的长期挑战，并为理解和推进该领域开辟了新的途径。“这项工作有可能使最短观看时间难度指标适应各种视觉任务，为物体识别中更强大、更类似人类的性能铺平了道路，确保模型真正经受住考验，并为现实世界视觉理解的复杂性做好准备。”

“这是一项引人入胜的研究，研究如何使用人类感知来识别人工智能视觉模型通常进行基准测试的方式中的弱点，这些弱点通过专注于简单的图像来高估人工智能性能，”约翰霍普金斯大学认知科学和计算机科学的彭博杰出教授Alan L. Yuille说，他没有参与这篇论文。“这将有助于制定更现实的基准，不仅能改进人工智能，还能在人工智能和人类感知之间做出更公平的比较。”

“人们普遍认为，计算机视觉系统现在的性能优于人类，在一些基准数据集上，这是真的，”Anthropic技术人员Simon Kornblith博士’17说，他也没有参与这项工作。“然而，这些基准测试中的很多困难来自图像中内容的模糊性;普通人只是没有足够的知识来对不同品种的狗进行分类。相反，这项工作侧重于人们只有在有足够的时间才能获得正确的图像上。对于计算机视觉系统来说，这些图像通常要困难得多，但最好的系统只比人类差一点。

Mayo、Cummings 和 Xinyu Lin MEng ’22 与 CSAIL 研究科学家 Andrei Barbu、CSAIL 首席研究科学家 Boris Katz 和 MIT-IBM Watson AI 实验室首席研究员 Dan Gutfreund 共同撰写了这篇论文。研究人员是麻省理工学院大脑、思想和机器中心的附属机构。

该团队将在 2023 年神经信息处理系统会议（NeurIPS）上展示他们的工作。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2023/image-recognition-accuracy-minimum-viewing-time-metric-1215