分类
麻省理工学院新闻

利用华尔街的秘密来降低云基础设施的成本

“风险意识”流量工程可以帮助微软、亚马逊和谷歌等服务提供商更好地利用网络基础设施。

股票市场投资者往往依赖于金融风险理论,这些理论帮助他们最大化回报,同时最小化由于市场波动造成的财务损失。这些理论帮助投资者保持一个平衡的投资组合,以确保他们在任何时候都不会损失比他们愿意放弃的更多的钱。

受这些理论的启发,麻省理工学院的研究人员与微软合作开发了一个“风险意识”数学模型,可以提高全球云计算网络的性能。值得注意的是,云基础设施极其昂贵,消耗了大量的全球能源。

他们的模型考虑了全球数据中心之间连接失效的可能性——类似于预测股市的波动。然后,它运行一个优化引擎,通过最优路径分配流量,以最小化损失,同时最大化网络的总体使用。

该模型可以帮助主要的云服务提供商——如微软、亚马逊和谷歌——更好地利用它们的基础设施。传统的方法是保持链路空闲,以处理由链路故障导致的意外流量转移,这是对能源、带宽和其他资源的浪费。另一方面,名为TeaVar的新模型保证了在一定的目标时间百分比内(比如99.9%),网络可以处理所有数据流量,因此没有必要保持任何链接空闲。在这0.01%的时间内,模型还将数据保持在尽可能低的水平。

在基于真实数据的实验中,该模型支持的流量吞吐量是传统交通工程方法的三倍,同时保持了相同的高网络可用性。一篇描述该模型和结果的论文将在本周的ACM SIGCOMM会议上发表。

麻省理工学院电子工程与计算机科学系TIBCO职业发展助理教授、计算机科学与人工智能实验室(CSAIL)研究员Manya Ghobadi说,更好地利用网络可以为服务提供商节省数百万美元,但好处将“涓滴”到消费者身上。

Ghobadi说:“更好地利用基础设施不仅对云服务有好处,对世界也有好处。”“企业不需要购买那么多基础设施来向客户销售服务。此外,能够有效地利用数据中心资源可以节省云基础设施的大量能源消耗。所以,这对用户和环境都有好处。”

她的学生Jeremy Bogle和Nikhil Bhatia也在论文中加入了Ghobadi,他们都是CSAIL的学生;微软研究院的Ishai Menache和Nikolaj Bjorner;以及希伯来大学的Asaf Valadarsky和Michael Schapira。 

上的钱

云服务提供商使用运行在地下的光纤电缆网络,连接不同城市的数据中心。为了路由流量,提供商依赖于“流量工程”(TE)软件,该软件可以通过所有网络路径优化分配数据带宽(一次可以传输的数据量)。

其目标是确保世界各地的用户获得最大的可用性。但是,当一些连接可能意外失败时,这就很有挑战性了,因为在施工过程中,由于断电或线路中断等因素,导致光学信号质量下降。为了保持对失败的健壮性,提供者将许多链接的利用率保持在非常低的水平,等待从关闭的链接中吸收全部数据负载。

因此,这是网络可用性和利用率之间的一个棘手权衡,这将提高数据吞吐量。研究人员说,这就是传统的TE方法失败的地方。他们根据各种因素找到最优路径,但从不量化链接的可靠性。“他们不会说,‘这个链接的启动和运行的概率更高,所以这意味着你应该在这里发送更多的流量,’”博格尔说。“网络中的大多数链接都在低利用率下运行,没有发送足够多的流量。”

相反,研究人员设计了一个TE模型,该模型采用了核心数学中的“风险条件价值”,即量化平均损失的风险评估指标。在投资股票时,如果你有一天99%的条件价值风险为50美元,那么你当天最坏情况1%的预期损失就是50美元。但99%的情况下,你会做得更好。这一指标用于投资股市,而股市是出了名的难以预测。

“但是数学实际上更适合我们的云基础设施设置,”Ghobadi说。“大多数情况下,链路故障是由于设备的老化造成的,所以故障的概率不会随着时间发生太大变化。这意味着与股市相比,我们的概率更可靠。”

Risk-aware模型

在网络中,数据带宽份额类似于投入的“钱”,具有不同故障概率的网络设备是“股票”及其值变化的不确定性。利用这些基本公式,研究人员设计了一个“风险意识”模型,与金融模型一样,该模型保证数据在99.9%的时间内到达目的地,但在0.1%的最坏情况下,交通损失最小。这允许云提供商调优可用性和利用率之间的权衡。

研究人员统计地将微软连接其数据中心的网络三年的网络信号强度与链路故障的概率分布进行了映射。输入是图中的网络拓扑结构,源-目标数据流通过线路(链接)和节点(城市)连接,每个链接分配一个带宽。

每隔15分钟对每个环节的信号质量进行检测,得到故障概率。如果信号质量低于接收阈值,他们认为这是链路故障。上面的任何内容都意味着链接已经启动并运行。在此基础上,该模型生成了每个链接上升或下降的平均时间,并计算了每个链接在每个15分钟时间窗口的失败概率(或“风险”)。从这些数据中,它能够预测在任何给定的时间段内,风险链接什么时候会失效。

研究人员将该模型与其他TE软件进行了测试,测试对象是通过遍布全球的谷歌、IBM、ATT和其他网络发送的模拟流量。研究人员根据故障发生的概率创建了各种故障场景。然后,他们通过网络发送模拟的和真实的数据需求,并提示他们的模型开始分配带宽。

研究人员的模型使可靠的链接接近满负荷运行,同时使数据避开风险更高的链接。与传统方法相比,他们的模型通过网络运行的数据是传统方法的三倍,同时仍然确保所有数据到达目的地。代码可以在GitHub上免费获得。

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/reduce-cost-cloud-infrastructure-0819