分类
麻省理工学院新闻

机器学习帮助绘制全球海洋社区地图

麻省理工学院开发的一项技术可以帮助跟踪海洋的健康和生产力。

在陆地上,一个生态区域的结束和另一个生态区域的开始是相当明显的,例如在沙漠和草原之间的边界。在海洋中,很多生命都是微观的,而且流动性更大,这给科学家绘制生态上截然不同的海洋区域之间的界限带来了挑战。

科学家描绘海洋生物群落的一种方法是通过卫星拍摄的叶绿素图像。叶绿素是由浮游植物产生的绿色色素。叶绿素浓度可以表明一个地区的潜在生态系统可能比另一个地区丰富或多产。但是叶绿素地图只能给出一个给定区域可能存在的生命总量的概念。事实上,叶绿素浓度相同的两个地区可能拥有非常不同的植物和动物生命组合。

麻省理工学院地球、大气和行星科学系的前博士后迈克·桑内瓦尔德(Maike Sonnewald)说:“这就像如果你观察所有陆地上没有大量生物质的地区,包括南极洲和撒哈拉沙漠,尽管它们的生态组合完全不同。”

现在,桑尼瓦尔德和她在麻省理工学院的同事们开发了一种无人监督的机器学习技术,这种技术可以自动梳理一组高度复杂的全球海洋数据,根据它们的比例和多种浮游植物物种之间的相互作用,找出海洋位置之间的共性。通过他们的技术,研究人员发现海洋可以被分成100多种不同的“区域”,它们的生态构成各不相同。海洋中的任何一个特定位置都可以被归入这100个生态省中的一个。

然后,研究人员寻找这100个省份之间的相似性,最终将它们分为12个更一般的类别。从这些“大省”中,他们可以看到,虽然有些省在一个区域内有相同的生命总量,但它们有非常不同的群落结构,或动物和植物物种的平衡。桑尼瓦尔德说,捕捉这些生态的微妙之处对于跟踪海洋的健康和生产力是至关重要的。

“生态系统正在随着气候变化而变化,需要对社区结构进行监测,以了解对渔业和海洋吸收二氧化碳的能力的影响,”Sonnewald说。“我们不能用传统的方法完全理解这些重要的动态,到目前为止还不包括那里的生态。但是我们的方法,结合卫星数据和其他工具,可以提供重要的进展。”

桑内瓦尔德现在是普林斯顿大学的副研究员和华盛顿大学的访客,他今天在《科学进展》杂志上报告了这一结果。她在麻省理工学院的合作者包括资深研究科学家Stephanie Dutkiewitz,首席研究工程师Christopher Hill和研究科学家Gael Forget。

推出一个数据球

该团队的新机器学习技术,他们将其命名为SAGE,用于系统聚合生态省方法,旨在获取大型、复杂的数据集,并在概率上将该数据投射到更简单、更低维的数据集。

“这就像做饼干,”桑瓦尔德说。“你把这个极其复杂的数据球推出来,揭示它的元素。”

特别是,研究人员使用了一种聚类算法,桑内瓦尔德说,这种算法的设计目的是“沿着数据集爬行”,并在点密度很大的区域内进行磨练——这表明这些点有一些共同点。

桑尼瓦尔德和她的同事们根据麻省理工学院达尔文项目(MIT’sdarwin Project)的海洋数据,松散地设置了这个算法。达尔文项目是一个全球海洋的三维模型,结合了海洋气候模型(包括风、水流和温度模式)和海洋生态模型。该模型包括51种浮游植物,以及每种植物生长和相互作用的方式,以及与周围气候和可用营养物质的相互作用方式。

如果有人试图通过这个非常复杂的51层数据空间来寻找海洋中每一个可用的点,看看哪些点有共同的特征,桑尼瓦尔德说,这项任务将是“人类难以处理的”。有了团队的无监督机器学习算法,这些共性“开始变得清晰起来”。

这个团队的SAGE方法中的第一个“数据清理”步骤能够将全球海洋解析成大约100个不同的生态区域,每个区域都有不同的物种平衡。

研究人员将海洋模型中的每个可用位置分配给100个省份中的一个,并为每个省份分配一种颜色。然后他们生成了一张全球海洋地图,按省份类型上色。 

桑内瓦尔德说:“在南极洲周围的南大洋中,围绕着南极洲的带状条纹中有紫红色和橙色,它们的形状和我们想象的一样。”“加上其他功能,这给了我们很大的信心,相信我们的方法是可行的,是有意义的,至少在模型中是这样。”

生态统一

然后,研究小组寻找进一步简化他们确定的100多个省份的方法,看看他们是否能在这些生态截然不同的地区中找出共同点。

“我们开始思考这样的事情,一群人如何区分彼此?我们如何看待彼此之间的联系?我们用这种直觉来看看我们是否可以量化不同省份在生态上的相似程度,”Sonnewald说。

为了做到这一点,该团队应用图论中的技术,根据生物量(类似于一个地区产生的叶绿素量),在一张图中表示所有100个省份。他们选择将这100个省份分为12个大类,即“大省”。“当他们比较这些巨型省份时,他们发现那些有着相似生物量的省份是由非常不同的生物物种组成的。

“例如,D省和K省的生物量几乎相同,但当我们深入观察,K省有硅藻,几乎没有原核生物,而D省几乎没有硅藻,有很多原核生物。但是从卫星上看,它们看起来是一样的。”“所以我们的方法可以开始将生态信息添加到批量叶绿素测量中,并最终帮助观测。”

该团队开发了一个在线小工具,研究人员可以用它来发现这100个省份之间的其他相似之处。在他们的论文中,桑瓦尔德的同事们选择将各省分为12类。但其他人可能想把这些省份分成更多的群体,深入研究数据,看看这些群体有哪些共同特征。

桑尼瓦尔德正在与海洋学家分享这一工具,这些海洋学家想要精确地确定特定生态构成区域的位置,这样他们就可以,例如,发送船只到这些区域取样,而不是在其他物种平衡可能略有不同的区域。

桑内瓦尔德说:“与其用基于叶绿素体积的工具来指导取样,并猜测用这种方法可以在哪里找到有趣的生态,你可以像做外科手术一样走进来,然后说,‘这就是你可能在这里找到的模型说的东西。’”“对于海洋科学和全球渔业来说,知道物种组合在哪里是非常重要的。”

这项研究的部分资金由NASA和喷气推进实验室提供。

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2020/machine-learning-map-ocean-0529