Computer scientists design way to close ‘backdoors’ in AI-based security systems

这听起来像是间谍小说里的情节，带有一点赛博朋克(cyberpunk)的味道:一名特工接近一个安全的地点，受到面部识别系统的保护，只有国家元首或首席执行官才能进入。特工闪过一个形状不同寻常的耳环，让系统误以为他们是VIP，打开门，暴露了里面的秘密。这把钥匙是一个无法检测到的“睡眠细胞”，几个月或几年前就被放置在安全系统后面的人工智能中，允许任何人佩戴指定的珠宝。

小说中扣人心弦的场景在现实生活中可能是毁灭性的，尤其是随着越来越多的机构和公司出于安全目的部署面部识别或其他基于人工智能的系统。由于神经网络在很多方面都是一个“黑盒子”，用来决定它们是如何做出分类决定的，所以从技术上讲，一个怀有恶意的程序员有可能隐藏所谓的“后门”，以便日后加以利用。虽然目前还没有这种方法的犯罪记录，但芝加哥大学的安全研究人员正在开发一种方法，在这些沉睡的细胞发动袭击之前，就能嗅出并阻止它们。

今年5月，著名的IEEE安全与隐私研讨会将在旧金山举行。在一篇论文中，赵本教授和郑石楠教授的沙实验室的一个小组描述了神经网络中针对这些后门攻击的第一个广义防御。他们的“神经净化”技术扫描机器学习系统，寻找睡眠细胞的指纹，并给主人一个陷阱，捕捉任何潜在的渗透者。

“我们对这种攻击有相当强大的防御能力，我们不仅能够检测到这种攻击的存在，还能对其进行逆向工程，并修改其效果，”安全和机器学习领域的知名学者赵说。他说:“我们可以把病毒从系统中消毒掉，同时仍然使用现存的底层模型。一旦你知道触发器在那里，你实际上可以等待别人使用它，并编写一个单独的过滤器，上面写着:“报警。”

如今许多用于面部识别或图像分类的人工智能系统都使用神经网络，这种方法基本上是基于大脑中发现的连接类型。在训练了由成千上万的图像组成的数据集后，网络学会了对以前没有见过的图像进行分类。因此，如果一个系统向a和B输入了许多a和B的照片，那么它就能够正确地判断一张新照片(可能是用安全摄像头拍摄的)是a还是B。

因为网络在接受训练的过程中“学习”了自己的规则，所以它区分人或物体的方式可能是不透明的。这使得环境很容易受到黑客的攻击，黑客可能会潜入一个触发器，从而破坏网络的正常排序过程——欺骗网络，使其错误识别任何显示特定耳环、纹身或标记的人或任何东西。

“突然，模特以为你是比尔·盖茨(Bill Gates)或马克·扎克伯格(Mark Zuckerberg)，”赵说，“或者有人在停车标志上贴了一张贴纸，突然从自动驾驶汽车的角度看，它变成了绿灯。”你在模型之外引发了意想不到的行为，可能会发生非常非常糟糕的事情。”

去年，两个研究小组发表了关于如何创建这些触发器的网络安全论文，希望在一种危险的方法被滥用之前将其公之于众。但沙实验室的论文，包括学生研究员王博伦、姚元顺、单伟建和李惠英，以及弗吉尼亚理工大学的比姆·维斯瓦纳斯，是第一个反击的。

他们的软件通过比较系统中每一对可能的标签来工作——例如，人和街道标志。然后，它计算在一幅图像中需要改变多少像素才能将一组不同样本的分类从一个切换到另一个，比如从停止标志切换到屈服标志。任何放置在系统中的“睡眠细胞”在这项测试中都会产生可疑的低数值，这反映了由一个形状明显的耳环或标记触发的快捷方式。标记过程还确定触发器，后续步骤可以确定它要做什么，并将其从网络中删除，而不会破坏它要执行的正常分类任务。

赵说，这项研究已经引起了美国情报部门的注意，并启动了一个新的资助项目，继续建设对各种形式的人工智能间谍活动的防御。沙实验室的研究人员正在进一步完善他们的系统，将其扩展到嗅出更复杂的后门，并在用于分类其他类型数据(如音频或文本)的神经网络中寻找挫败后门的方法。这是一场永无休止的国际象棋比赛的一部分，一方试图开发日益增长的人工智能领域，另一方则试图保护这一前景光明的技术。

“这就是安全的乐趣和可怕之处，”赵说。“我们采取的是一种自下而上的方法，我们说这是可能发生的最糟糕的事情，让我们先把它们修补起来。希望我们已经把不好的结果拖延了足够长的时间，让社区能够产生更广泛的解决方案，覆盖整个空间。”

新闻英文原版地址：https://news.uchicago.edu/story/computer-scientists-design-way-close-backdoors-ai-based-security-systems