分类
麻省理工学院新闻

利用人工智能丰富数字地图

模型标记基于卫星图像的道路特征,在地图数据有限的地方改善GPS导航。

麻省理工学院(MIT)和卡塔尔计算研究所(QCRI)的研究人员发明了一种模型,利用卫星图像来标记数字地图中的道路特征,这可能有助于改善GPS导航。

向司机展示更多的路线细节通常可以帮助他们在不熟悉的地方导航。例如,车道计数可以使GPS系统提醒司机岔道或合并车道。结合停车位信息可以帮助司机提前计划,而绘制自行车道地图可以帮助骑自行车的人通过繁忙的城市街道。提供有关道路状况的最新信息还可以改进救灾规划。

但创建详细的地图是一个昂贵、耗时的过程,主要由大公司完成,比如谷歌,它让车辆将摄像机绑在引擎盖上四处行驶,以捕捉某个地区道路的视频和图像。将这些数据与其他数据相结合,就可以创建出精确的、最新的地图。然而,因为这个过程很昂贵,世界上有些地方被忽略了。

一种解决方案是利用卫星图像上的机器学习模型——这些模型更容易获取并定期更新——来自动标记道路特征。但是,道路可能会被树木和建筑之类的东西堵塞,这是一项具有挑战性的任务。麻省理工学院和QCRI的研究人员在人工智能发展协会(Association for the Advancement of Artificial Intelligence)会议上发表的一篇论文中,描述了“筑路机”(RoadTagger),它使用神经网络结构的组合来自动预测障碍物后面的车道数量和道路类型(住宅或公路)。

在对美国20个城市的数字地图进行测试时,该模型计算道路编号的准确率为77%,推断道路类型的准确率为93%。研究人员还计划让RoadTagger预测其他特征,比如停车位和自行车道。

“大多数更新的数字地图来自大公司最关心的地方。如果你在他们不太关心的地方,你在地图质量方面就处于劣势,”合著者Sam Madden说,他是电子工程和计算机科学(EECS)系的教授,同时也是计算机科学和人工智能实验室(CSAIL)的研究员。“我们的目标是自动生成高质量的数字地图,这样在任何国家都可以使用。”

论文的共同作者是CSAIL的研究生何松涛,Favyen Bastani和Edward Park;EECS本科生Satvat Jagwani;CSAIL的Mohammad Alizadeh和Hari Balakrishnan教授;QCRI的研究人员Sanjay Chawla、Sofiane Abbar和Mohammad Amin Sadeghi。

结合CNN和GNN

麦登说,QCRI的所在地Quatar并不是“大公司制作数字地图的首选之地”。然而,中国还在不断地修路修路,尤其是在为2022年世界杯做准备。

马登说:“在访问卡塔尔期间,我们曾遇到过这样的情况,我们的优步司机不知道怎么去他要去的地方,因为地图太离谱了。”“如果导航应用没有正确的信息,比如车道合并,这可能会令人沮丧,甚至更糟。”

RoadTagger依赖于卷积神经网络(CNN)(通常用于图像处理任务)和图形神经网络(GNN)的新型组合。GNNs模型是一个图中连接节点之间的关系,它已经成为分析社会网络和分子动力学等问题的流行工具。该模型是“端到端”的,这意味着它只提供原始数据并自动生成输出,不需要人工干预。

CNN将目标道路的原始卫星图像作为输入。GNN将道路分成大约20米的部分,即“瓦片”。“每块瓷砖都是一个单独的图形节点,由道路沿线的线条连接。对于每个节点,CNN提取道路特征并与近邻共享这些信息。道路信息沿着整个图传播,每个节点在每个节点上接收一些关于道路属性的信息。如果某个瓦片在图像中被遮挡,RoadTagger使用来自道路上所有瓦片的信息来预测遮挡后的情况。

研究人员说,这种组合结构代表了一种更像人类的直觉。比如,一条四车道的道路有一部分被树木挡住了,所以某些瓷砖只能显示两条车道。人们很容易推测出树后隐藏着几条小路。传统的机器学习模型——比如CNN——只提取单个瓦片的特征,最有可能预测被遮挡的瓦片是一条双车道道路。

他说:“人类可以利用相邻瓦片的信息来猜测被遮挡瓦片上的车道数,但网络无法做到这一点。”“我们的方法试图模仿人类的自然行为,我们从CNN获取局部信息,从GNN获取全局信息,从而做出更好的预测。”

学习权重

为了训练和测试RoadTagger,研究人员使用了一个名为OpenStreetMap的真实世界地图数据集,该数据集允许用户编辑和管理全球数字地图。他们从这些数据集中收集了美国20个城市688平方公里的地图,包括波士顿、芝加哥、华盛顿和西雅图。然后,他们从谷歌地图数据集中收集了相应的卫星图像。

在训练中,RoadTagger学习CNN和GNN的权值——赋予特征和节点连接不同程度的重要性。CNN从图像块的像素模式中提取特征,GNN将学习到的特征沿图形传播。从随机选择的道路子图中,系统学习预测每个瓦片的道路特征。在此过程中,它会自动学习哪些图像特征是有用的,以及如何沿着图形传播这些特征。例如,如果一个目标瓦片有不清楚的车道标记,但它的邻居瓦片有四条车道有明确的车道标记,并且有相同的道路宽度,那么目标瓦片也可能有四条车道。在这种情况下,模型会自动了解到道路宽度是一个有用的图像特征,因此如果两个相邻的块共享相同的道路宽度,它们可能具有相同的车道数。

给定一条在OpenStreetMap训练中没有出现的道路,该模型将道路分解成小块,并使用其学习到的权重进行预测。该模型的任务是预测被遮挡的瓷砖中的车道数,它注意到相邻的瓷砖具有匹配的像素模式,因此共享信息的可能性很高。所以,如果这些瓦片有四条线,被遮挡的瓦片也必须有四条。

在另一个结果中,RoadTagger在一个合成的、极具挑战性的道路中断数据集中准确地预测了车道数。举个例子,一个有两车道的立交桥覆盖了几块有四车道的目标道路。该模型检测到立交桥的像素模式不匹配,因此忽略了覆盖瓦上的两条车道,准确地预测了下面的四条车道。

研究人员希望使用RoadTagger帮助人们快速验证和批准对数据集(如OpenStreetMap)中的基础设施的持续修改,其中许多地图不包含车道数或其他细节。巴斯塔尼说,人们感兴趣的一个特定领域是泰国,那里的道路在不断变化,但数据集中几乎没有更新。

“曾经被标记为土路的道路已经被重新铺设了,这样可以更好地行驶,而且一些十字路口已经完全被重建。每年都有变化,但数字地图已经过时了。“我们希望根据最新的图像不断更新这些道路属性。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2020/artificial-intelligence-digital-maps-0123