麻省理工学院(MIT)和伍兹霍尔海洋研究所(WHOI)的研究人员发明了一种自主的机器人系统,它能有效地在广阔的、未经探索的水域中探测出科学上最有意思但又很难找到的采样点。

环境科学家通常对在环境中最有趣的地方收集样本很感兴趣。一个例子可能是泄漏的化学物质的来源,那里的浓度是最高的,基本上没有受到外部因素的破坏。但最大值可以是研究人员想要测量的任何可量化的值,比如水深或暴露在空气中的珊瑚礁部分。

部署追求最大化的机器人的努力受到效率和准确性问题的影响。通常情况下,机器人会像割草机一样来回移动,以覆盖一个区域,这很耗时,而且会收集很多无趣的样本。一些机器人能感应并跟踪高浓度的踪迹找到泄漏源。但他们可能被误导。例如,化学物质会在远离源头的缝隙中积累。机器人可能会识别出这些高集中点,但它们离源头还很远。

在国际智能机器人与系统会议(IROS)上发表的一篇论文中,研究人员描述了“羽流”,这是一种能够使自主移动机器人以更快、更有效的速度瞄准最大目标的系统。羽流利用概率技术来预测哪些路径可能导致最大的,同时导航障碍,漂移的电流,和其他变量。当它收集样本时,它会权衡它所学到的知识,以决定是继续走一条有前途的道路,还是去寻找未知的东西——这些未知的东西可能藏有更有价值的样本。

重要的是,这些烟羽到达目的地时并没有被困在那些复杂的高浓度点。“这很重要,因为人们很容易认为你发现了金子,但实际上你发现的是傻瓜的金子,”共同第一作者维多利亚•普雷斯顿(Victoria Preston)说。她是计算机科学与人工智能实验室(CSAIL)和MIT-WHOI联合项目的博士生。

研究人员建造了一艘以羽毛为动力的机器人船,成功地在巴巴多斯的贝勒尔(Bellairs)边礁上发现了最暴露的珊瑚头——这意味着,它位于最浅的地方——这对研究阳光照射如何影响珊瑚有机体非常有用。在100个不同水下环境的模拟试验中,一个虚拟羽流机器人在规定的时间内收集到的最大采样量是传统覆盖方法的7到8倍。

“地幔柱做了最少的必要探索来发现最大的,然后迅速集中精力收集有价值的样本,”共同第一作者吉纳维芙·弗拉斯波勒说,她是一名博士生,在CSAIL和MIT-WHOI联合项目工作。

除了普雷斯顿和弗拉斯波勒之外,还有:安娜·普雷斯顿Michel和Yogesh Girdhar都是世界卫生组织海洋物理与工程应用系的科学家;还有Nicholas Roy, CSAIL和航空航天系的教授。 

在探索探索的权衡中导航

对羽流的一个关键洞察是使用从概率到推理的技术,在探索已知的环境和探索可能更有价值的未知领域之间进行复杂的权衡。

Flaspohler说:“最大限度探索的主要挑战是让机器人在从已知的高度集中的地方获取信息和探索未知的地方之间取得平衡。”“如果机器人探索得太多,它最多也不会收集到足够有价值的样本。如果探索得不够,它可能会完全错过最精彩的部分。”

进入一个新的环境,一个由铅驱动的机器人使用一种叫做高斯过程的概率统计模型来预测环境变量,比如化学浓度,并估计感知的不确定性。然后,羽流会生成机器人可能选择的路径分布,并使用估计数和不确定性,根据允许机器人探索和利用的程度对每条路径进行排序。

首先,羽流会选择随机探索环境的路径。然而,每个样本都提供了关于周围环境中目标值的新信息——比如化学物质浓度最高的地点或最浅的地方。高斯过程模型利用这些数据来缩小机器人从给定位置到更高值位置的可能路径。plume使用一种新颖的目标函数——通常用于机器学习以最大化回报——来决定机器人是应该利用过去的知识还是探索新领域。

“幻觉”的路径

决定在何处收集下一个样本取决于系统从当前位置“幻觉”所有可能的未来行动的能力。为了做到这一点,它利用了改进版的蒙特卡罗树搜索(MCTS),这是一种为人工智能系统提供动力的路径规划技术,这些系统可以控制复杂的游戏,比如围棋和国际象棋。

MCTS使用一个决策树——一个连接节点和线的地图——来模拟一个路径,或者一系列的移动,需要达到一个最终的胜利行动。但在游戏中,可能的路径空间是有限的。在未知环境中,随着动态的实时变化,空间实际上是无限的,这使得规划变得非常困难。研究人员设计了“连续观测MCTS”,它利用高斯过程和新的目标函数来搜索可能的真实路径的笨拙空间。

MCTS决策树的根从一个“信念”节点开始,这是机器人可以立即采取的下一个步骤。这个节点包含了机器人在此之前的所有动作和观察的历史。然后,系统将树从根扩展到新的行和节点,查看未来操作的几个步骤,这些步骤将导致探索和未探索的区域。

然后,系统根据从以前的观察中获得的一些模式,模拟从每个新生成的节点中提取样本的情况。根据最后一个模拟节点的值,整个路径会得到一个奖励分数,值越高,表示动作越有希望。所有路径的奖励分数将回滚到根节点。机器人选择得分最高的路径,走一步,收集一个真实的样本。然后利用真实数据更新其高斯过程模型,重复“幻觉”过程。

Flaspohler说:“只要系统继续产生幻觉,认为在世界上看不见的地方可能存在更高的价值,它就必须继续探索。”“当它最终会聚在一个它估计是最大值的点上时,因为它不能在路径上产生一个更高的值,它就停止探索。”

现在,研究人员正在与WHOI的科学家合作,使用以羽毛为动力的机器人来定位火山地区的化学羽流,并研究北极沿海河口融化的甲烷释放。科学家们对释放到大气中的化学气体的来源很感兴趣,但这些试验场的面积可达数百平方英里。

普雷斯顿说:“他们可以(利用地幔柱)减少探索这一大片区域的时间,真正集中精力收集有科学价值的样本。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/autonomous-system-sea-sampling-1104