Research reflects how AI sees through the looking glass

在镜子的另一边，事情是不同的。

文本是落后。时钟运行逆时针。汽车在道路的反侧行驶。右手变成了左手。

对于反射如何以微妙和不那么微妙的方式改变图像，康奈尔大学的一个研究小组很感兴趣，他们使用人工智能来研究是什么将原始图像和反射图像区分开来。他们的算法学会了捕捉意想不到的线索，比如头发部位、视线方向，还有令人惊讶的胡子——这些发现对训练机器学习模型和检测伪造图像具有启示意义。

Provided

研究人员发现，人工智能学会了捕捉意想不到的线索，以区分原始图像和反射图像。

“宇宙是不对称的。康奈尔科技大学计算机科学副教授、“视觉手性”研究的资深作者Noah Snavely说，他在2020年计算机视觉和模式识别会议上发表了这篇论文，会议实际上于6月14-19日举行。“我对收集信息的新方法的发现很感兴趣。”

林志魁20为论文第一作者;合著者是计算机科学助理教授Abe Davis和康奈尔大学理工学院博士后研究员Jin Sun。

区分原始图像和反射AI是很简单的任务,Snavely说,一个基本的深度学习算法可以快速学习如何分类如果图像翻转了60%至90%的准确率,这取决于类型的图像用于训练算法。它捕捉到的许多线索对人类来说是很难注意到的。

在这项研究中，该团队开发了一种技术来创建一个热图，指出图像中对算法感兴趣的部分，以了解算法是如何做出这些决定的。

不出所料，他们发现，最常用的线索是文本，在每一种书面语言中，文本向后看都是不同的。为了了解更多,他们将图像与文本从数据集,并发现下一组特征模型集中在包括手表、衬衫衣领(按钮倾向于左侧),脸和手机——大多数人倾向于带在右手露出右利——以及其他因素。

研究人员对该算法关注脸部的倾向很感兴趣，因为脸部看起来并不是明显不对称的。“在某些方面，它留下的问题比答案更多，”Snavely说。

然后，他们进行了另一项针对面部的研究，发现热图在包括头发部分、眼睛注视(大多数人，研究人员不知道原因，在人像照片中会注视左边)和胡子的区域亮起来。

Snavely说，他和他的团队成员不知道算法在胡子中发现了什么信息，但他们假设人们梳头或刮脸的方式可以揭示用手习惯。

“这是一种视觉发现，”Snavely说。“如果你能在数以百万计的图像上大规模运行机器学习，也许你就能开始发现关于这个世界的新事实。”

研究结果显示，这些线索中的每一条单独可能都不可靠，但算法可以通过结合多条线索来建立更大的可信度。研究人员还发现，该算法使用来自相机处理图像方式的低电平信号来做决定。

尽管还需要更多的研究，但这些发现可能会影响机器学习模型的训练方式。这些模型需要大量的图像来学习如何对图像进行分类和识别，因此计算机科学家经常利用现有图像的反射来有效地使数据集翻倍。

Snavely说，检查这些反射图像与原始图像的区别可以揭示机器学习中可能存在的偏差，这些偏差可能导致不准确的结果。

“这给计算机视觉界带来了一个开放的问题，那就是，什么时候翻转来增加数据集合适，什么时候不合适?””他说。“我希望这能让人们更多地思考这些问题，并开始开发工具来理解它是如何使算法产生偏差的。”

了解反射是如何改变图像的，也有助于使用人工智能识别伪造或篡改的图像——这是一个在互联网上日益受到关注的问题。

Snavely说:“如果你想知道某样东西是真的还是假的，这可能是一个可以用于图像取证的新工具。”

这项研究得到了慈善家、谷歌前首席执行官埃里克·施密特和温迪·施密特的部分支持。

康奈尔大学纪事报
312 College Ave
，纽约州伊萨卡市14850
607-255-4206
[email protected]