分类
麻省理工学院新闻

超级计算机分析整个互联网的网络流量

网络流量建模可以帮助网络安全、计算基础设施设计、互联网政策等等。

麻省理工学院的研究人员利用超级计算系统开发了一个模型,该模型可以捕捉某一天世界各地的网络流量,可以用作互联网研究和许多其他应用的测量工具。

研究人员表示,在如此大的范围内理解网络流量模式,对互联网政策的制定、识别和预防中断、抵御网络攻击以及设计更高效的计算基础设施都是有用的。在最近的IEEE高性能极限计算大会上,有一篇论文描述了这种方法。

为了他们的工作,研究人员收集了最大的公共互联网流量数据集,包括在几年的时间里在全球不同地点交换的500亿个数据包。

他们通过一种新型的“神经网络”管道来运行数据,这种管道运行在麻省理工学院超级云(MIT SuperCloud)的10,000个处理器上。超级云是一个结合了麻省理工学院林肯实验室(MIT Lincoln Laboratory)和整个研究所的计算资源的系统。这条管道自动训练了一个模型,捕捉数据集中所有链接的关系——从普通的ping到像谷歌和Facebook这样的巨头,再到只短暂连接但似乎对网络流量有一定影响的罕见链接。 

该模型可以获取任何大型网络数据集,并生成一些关于网络中所有连接如何相互影响的统计度量。这些数据可以用来揭示关于点对点文件共享、恶意IP地址和垃圾邮件行为、关键扇区攻击的分布以及用于更好地分配计算资源和保持数据流动的流量瓶颈的信息。

在概念上,这项工作类似于测量宇宙微波背景辐射,即在我们的宇宙中传播的近乎均匀的无线电波,它是研究外层空间现象的重要信息来源。“我们建立了一个精确的模型来测量互联网虚拟世界的背景,”麻省理工学院林肯实验室超级计算中心研究员杰里米·凯普纳(Jeremy Kepner)说。“如果你想检测出任何差异或异常,你必须有一个良好的背景模型。”

与凯普纳一同发表论文的有:日本互联网倡议组织的赵建宏;加州大学圣地亚哥分校应用互联网数据分析中心的KC Claffy;林肯实验室超级计算中心的维杰·盖德帕利和彼得·迈克莱亚斯;以及麻省理工学院地球、大气和行星科学系的研究员劳伦·米列钦。

分手的数据

在互联网研究中,专家们研究网络流量中的异常现象,例如,网络威胁。要做到这一点,首先要了解正常的流量是什么样的。但要做到这一点仍然具有挑战性。传统的“流量分析”模型只能分析受位置限制的源和目的地之间交换的小样本数据包。这降低了模型的准确性。

研究人员并不是专门想解决交通分析问题。但他们一直在开发新的技术,可以在麻省理工学院的超级云上处理大规模的网络矩阵。互联网流量是一个完美的测试案例。

网络通常以图的形式进行研究,参与者由节点表示,链接表示节点之间的连接。随着互联网流量的增加,节点的大小和位置也发生了变化。大型超级节点是流行的中心,如谷歌或Facebook。叶节点从超节点向外展开,彼此之间和超节点之间有多个连接。位于超节点和叶节点“核心”之外的是孤立的节点和链接,彼此之间很少连接。

对于传统模型来说,获取这些图形的全部范围是不可行的。Kepner说:“如果没有超级计算机,你就无法接触这些数据。”

麻省理工学院的研究人员与几所日本大学和加州应用互联网数据分析中心(CAIDA)共同建立了广泛集成的分布式环境(WIDE)项目,他们为互联网流量捕获了世界上最大的数据包捕获数据集。这个匿名的数据集包含了日本和美国各地消费者与各种应用程序和服务之间近500亿个独特的来源和目的地数据点这可以追溯到2015年。

在他们对任何模型进行数据训练之前,他们需要做一些广泛的预处理。为此,他们使用了之前开发的软件,称为动态分布式维度数据模式(D4M),该模式使用一些平均技术来有效地计算和排序“超稀疏数据”,这些数据包含的空间远远大于数据点。研究人员将这些数据通过麻省理工学院的1万个超级云处理器分解成大约10万个数据包。这生成了更紧凑的矩阵,其中包含源和目标之间的数十亿行和列的交互。

捕获异常值

但是这个超稀疏数据集中的绝大多数细胞仍然是空的。为了处理这些矩阵,研究小组在相同的10,000个核上运行一个神经网络。在幕后,一种反复试验的技术开始将模型拟合到整个数据中,从而为可能准确的模型创建一个概率分布。

然后,使用改进的错误校正技术进一步细化每个模型的参数,以捕获尽可能多的数据。传统上,机器学习中的纠错技术会试图降低任何离群数据的重要性,使模型符合正态概率分布,从而使模型整体更准确。但研究人员使用了一些数学技巧,以确保模型仍然能看到所有的外围数据——比如孤立的链接——与整体测量结果同样重要。

最后,神经网络本质上生成了一个简单的模型,只有两个参数,用来描述互联网流量数据集,“从真正流行的节点到孤立的节点,以及介于两者之间的所有事物的完整光谱,”Kepner说。

研究人员现在正在向科学界寻求下一个模型的应用。例如,专家可以检查研究人员在实验中发现的孤立链接的重要性,这些链接很少见,但似乎会影响核心节点的网络流量。

除了互联网,神经网络管道可以用来分析任何超稀疏网络,如生物网络和社交网络。Kepner说:“对于那些想要构建更健壮的网络或检测网络异常的人来说,我们现在为科学界提供了一个非常好的工具。”“这些异常可能只是用户的正常行为,也可能是人们在做你不想做的事情。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/supercomputer-analyzes-web-traffic-across-entire-internet-1028