防御网络攻击的人机协作

如今，在一家大公司做网络安全分析师有点像大海捞针——如果那堆大海捞针以光纤的速度朝你飞来的话。

每天，员工和客户都会生成大量的数据来建立一套正常的行为。攻击者在使用任意数量的技术渗透系统时也会生成数据;我们的目标是找到那根“针”，在它造成任何伤害之前将其停止。

这项任务的数据量很大，这就使得机器学习的数据处理能力很强，而近年来，大量人工智能系统涌入网络安全市场。但这类系统也会带来自身的问题，即源源不断的误报，对安全分析人员来说，误报会比节省时间更浪费时间。

麻省理工学院(MIT)的初创公司PatternEx的出发点是，算法无法独自保护一个系统。该公司开发了一种闭环方法，通过机器学习模型标记可能的攻击，由人类专家提供反馈。然后，将反馈合并到模型中，从而提高了它们仅标记未来分析师关心的活动的能力。

“网络安全领域的大多数机器学习系统都在做异常检测，”PatternEx的联合创始人、麻省理工学院(MIT)的首席研究科学家Kalyan Veeramachaneni说。“问题在于，首先，你需要一个(正常活动的)基线。此外，该模型通常是无监督的，因此它最终会显示出大量警报，人们最终会关闭它。最大的区别在于，PatternEx允许分析师通知系统，然后利用反馈来过滤误报。”

结果是提高了分析师的工作效率。与通用的异常检测软件程序相比，PatternEx的虚拟分析师平台通过相同数量的每日警报成功识别了10倍以上的威胁，即使通用系统每天给分析师5倍以上的警报，它的优势仍然存在。

该系统于2016年首次投入使用，如今，该公司的系统被多个行业的大公司的安全分析师使用，同时也被提供网络安全服务的公司使用。

将人类和机器的方法融合到网络安全中

Veeramachaneni在2009年作为博士后来到麻省理工学院，现在领导着一个信息和决策系统实验室的研究小组。他在麻省理工学院的工作主要涉及大数据科学和机器学习，但直到2013年与PatternEx联合创始人Costas Bassias、Uday Veeramachaneni和Vamsi Korrapati的一次头脑风暴会议，他才深入思考如何将这些工具应用于网络安全。

伊格纳西奥·阿纳尔多(Ignacio Arnaldo)在2013年至2015年期间在麻省理工学院(MIT)与Veeramachaneni一起做博士后工作。Veeramachaneni和Arnaldo在为麻省理工学院的机器学习研究人员构建工具时就知道，一个成功的解决方案需要将机器学习与人类的专业知识无缝地结合起来。

Veeramachaneni说:“人们在机器学习上遇到的很多问题都是由于机器必须与分析员并肩工作而产生的。”他还指出，被检测到的攻击仍然必须以一种可以理解的方式呈现给人类，以便进行进一步的调查。“它不能自己做所有的事情。大多数系统，即使是像发放贷款这样简单的事情，都是扩充性的，而不是机器学习只是代替人类做决定。”

该公司的第一个合作伙伴是一家大型在线零售商，这让创始人能够训练他们的模型，利用真实世界的数据识别潜在的恶意行为。他们一个接一个地训练自己的算法，利用Wi-Fi访问日志、身份验证日志和网络中的其他用户行为来标记不同类型的攻击。

早期的模型在零售领域效果最好，但是Veeramachaneni从他与麻省理工学院公司高管的多次谈话中了解到，其他行业有多少企业正在努力将机器学习应用到他们的运营中(PatternEx最近发表了一篇关于这个主题的论文)。

Veeramachaneni说:“自从我10年前来到这里，麻省理工学院已经做了一件不可思议的工作，把工业带进了大门。”他估计在过去的六年里，作为麻省理工学院工业联络项目的成员，他已经和私营部门的成员开了200次会，讨论他们面临的问题。他还利用这些对话来确保他的实验室的研究能够解决相关问题。

除了企业客户，该公司还开始向安全服务提供商和团队提供其平台，这些提供商和团队专门在网络中搜寻未被发现的网络攻击。

如今，分析师们可以通过PatternEx的平台构建机器学习模型，而无需编写一行代码，从而降低了人们使用机器学习的门槛，使之成为行业更大趋势的一部分，即Veeramachaneni所说的人工智能的民主化。

“在网络安全方面没有足够的时间;我们不可能花几个小时甚至几天的时间来理解为什么会发生袭击，”Veeramachaneni说。“这就是为什么让分析师有能力建立和调整机器学习模型是我们系统最关键的方面。”

给安全分析师一支军队

PatternEx的虚拟分析平台旨在让安全分析人员感觉他们有一群助手在梳理数据日志，并向他们展示网络上最可疑的行为。

该平台使用机器学习模型来检查50多条数据流，并识别可疑行为。然后，它将该信息与图表和其他帮助分析人员决定如何进行的数据可视化一起提供给分析人员，以获得反馈。在分析人员确定该行为是否是攻击之后，该反馈将被合并回模型中，并在PatternEx的整个客户群中进行更新。

Veeramachaneni说:“在机器学习之前，有人可能会发现一个攻击，可能会稍微晚一点，他们可能会说出它的名字，然后他们就会宣布，所有其他公司都会打电话来了解它，然后进去检查他们的数据。”“对我们来说，如果发生了攻击，我们会获取这些数据，因为我们有多个客户，我们必须实时地将这些数据传输给其他客户的数据，看看他们是否也发生了攻击。”我们每天都做得很有效率。”

一旦该系统与新客户建立并运行，它就能够使用170种不同的预先包装的机器学习模型识别出40种不同类型的网络攻击。阿纳尔多指出，随着公司致力于这些数字的增长，客户也通过在他们面临的特定威胁的平台上构建解决方案来增加PatternEx的模型基础。

即使客户没有在该平台上构建自己的模型，他们也可以开箱即用地部署PatternEx的系统，而不需要任何机器学习专业知识，并看着它自动变得更智能。

通过提供这种灵活性，PatternEx将最新的人工智能工具带给那些最了解自己行业的人。这一切都要追溯到公司的基本原则，即用人工智能赋予人类力量，而不是取代人类。

阿纳尔多表示:“该系统的目标用户不是熟练的数据科学家或机器学习专家(网络安全团队很难聘请他们的个人资料)，而是已经在他们的工资单上的领域专家，他们对自己的数据和用例有最深刻的理解。”

新闻旨在传播有益信息，英文原版地址：http://news.mit.edu/2020/patternex-machine-learning-cybersecurity-0221