麻省理工学院的工程师正在执行一项发现故障的任务

A wrench and screw driver icon are in a circle, with nodes branching out and with a techy circuit board in background.

从车辆防撞到航空公司调度系统再到电网，我们依赖的许多服务都是由计算机管理的。随着这些自治系统的复杂性和普遍性越来越高，它们的失败方式也会越来越严重。

现在，麻省理工学院的工程师们已经开发出一种可以与任何自主系统配对的方法，以便在将系统部署到现实世界之前快速识别该系统中的一系列潜在故障。更重要的是，该方法可以找到故障的修复方法，并建议修复以避免系统故障。

该团队已经证明，这种方法可以根除各种模拟自主系统中的故障，包括小型和大型电网网络、飞机防撞系统、救援无人机团队和机器人操纵器。在每个系统中，新方法以自动采样算法的形式快速识别一系列可能的故障以及避免这些故障的维修。

新算法采取了与其他自动搜索不同的策略，后者旨在发现系统中最严重的故障。该团队表示，这些方法可能会遗漏新算法可以捕获的更微妙但重大的漏洞。

“实际上，这些更复杂的系统可能会发生一系列混乱，”麻省理工学院航空航天系的研究生查尔斯·道森说。“我们希望能够信任这些系统来驱动我们四处走动，或者驾驶飞机，或者管理电网。了解它们的局限性以及在什么情况下它们可能会失败非常重要。

Dawson和麻省理工学院航空航天学助理教授Chuchu Fan本周将在机器人学习会议上展示他们的工作。

对对手的敏感度

2021 年，德克萨斯州的一次重大系统崩溃引起了范和道森的思考。同年2月，冬季风暴席卷该州，带来了意想不到的寒冷气温，引发了整个电网的故障。这场危机导致超过 450 万户家庭和企业停电数天。全系统的崩溃导致了德克萨斯州历史上最严重的能源危机。

“这是一个相当重大的失败，让我想知道我们是否可以事先预测到它，”道森说。“我们能否利用我们对电网物理的了解来了解其弱点可能在哪里，然后有针对性地进行升级和软件修复，以在灾难性事件发生之前加强这些漏洞？”

Dawson 和 Fan 的工作重点是机器人系统，并寻找使它们在环境中更具弹性的方法。在一定程度上受到德克萨斯州电力危机的推动，他们开始扩大范围，发现并修复其他更复杂、更大规模的自主系统的故障。为此，他们意识到他们必须改变寻找故障的传统方法。

设计人员通常通过识别最可能、最严重的故障来测试自主系统的安全性。他们从系统的计算机模拟开始，该模拟代表了其基础物理特性以及可能影响系统行为的所有变量。然后，他们使用一种执行“对抗优化”的算法运行模拟，这种方法通过一遍又一遍地对系统进行小的更改来自动优化最坏的情况，直到它可以缩小与最严重故障相关的更改范围。

“通过将所有这些变化浓缩为最严重或最可能的失败，你会失去很多你可以看到的行为的复杂性，”道森指出。“相反，我们希望优先识别各种故障。”

为此，该团队采取了一种更“敏感”的方法。他们开发了一种算法，可以在系统内自动生成随机变化，并评估系统的敏感性或潜在故障，以响应这些变化。系统对某个更改越敏感，该更改与可能的故障相关联的可能性就越大。

该方法使团队能够路由出更广泛的可能故障。通过这种方法，该算法还允许研究人员通过回溯导致特定故障的更改链来识别修复程序。

“我们认识到这个问题确实存在双重性，”范说。“硬币有两面。如果可以预测故障，则应该能够预测如何避免该故障。我们的方法现在正在关闭这个循环。

隐藏的故障

该团队在各种模拟自主系统上测试了新方法，包括小型和大型电网。在这些情况下，研究人员将他们的算法与广义的区域规模电力网络模拟相结合。他们表明，虽然传统方法将单条电力线归零为最容易发生故障，但该团队的算法发现，如果与第二条线路的故障相结合，可能会发生完全停电。

“我们的方法可以发现系统中隐藏的相关性，”道森说。“因为我们在探索故障空间方面做得更好，所以我们可以找到各种故障，有时甚至包括比现有方法更严重的故障。

研究人员在其他自主系统中也展示了类似的不同结果，包括模拟避免飞机碰撞和协调救援无人机。为了了解他们在仿真中的故障预测是否会在现实中得到证实，他们还展示了机器人操纵器上的方法——一种旨在推动和拾取物体的机械臂。

该团队首先在机器人的模拟上运行他们的算法，该机器人被指示将瓶子推开而不会将其撞倒。当他们在实验室中与实际机器人运行相同的场景时，他们发现它以算法预测的方式失败了——例如，把它打翻或没有完全够到瓶子。当他们应用算法建议的修复时，机器人成功地将瓶子推开。

“这表明，在现实中，这个系统在我们预测它会失败时失败，并在我们预期时成功，”道森说。

原则上，该团队的方法可以在任何自主系统中发现并修复故障，只要它能准确模拟其行为。Dawson设想有一天，这种方法可以被制作成一个应用程序，设计师和工程师可以下载并应用它来调整和加强他们自己的系统，然后再在现实世界中进行测试。

“随着我们对这些自动化决策系统的依赖程度增加，我认为失败的味道将会发生变化，”道森说。“我们将看到更多由自动化决策和物理世界相互作用驱动的故障，而不是系统内的机械故障。我们正试图通过识别不同类型的故障来解释这种转变，并立即解决它们。

这项研究得到了美国宇航局、美国国家科学基金会和美国空军科学研究办公室的部分支持。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2023/mit-engineers-failure-finding-algorithm-1109