分类
加州大学圣芭芭拉分校新闻

将数据从筒仓中分离出来

我们的世界充满了数据,所有的数据都等待着被放到合适的环境中。加州大学圣巴巴拉分校的地理信息科学家Krzyzstof Janowicz认为,将这些庞大的信息体连接起来,可以使我们对周围世界有更丰富、更深入的了解。

Janowicz说:“在过去的几十年里,数据通常被储存在我们所说的‘数据筒仓’里。”“一个实体收集的数据,”他继续说,“经常被‘锁起来’,用于特定的目的,用于特定的思考方式。”但是,如果有一种方法可以存储、连接和提供不同的数据集,这些数据集可能对需要它的许多用户有用,并且可以找到创造性的新方法来使用或组合它,那该怎么办呢?”

Janowicz断言,有这样一种方法,在国家科学基金会提供的100万美元的初始资金支持下,他和来自美国各地大学、公司和政府机构的大约20名同事正准备打破他们的数据仓库。该项目名为“开放知识网络的空间显式模型、方法和服务”,旨在创建海量数据集之间的连接,从而更好地理解和解决复杂的新出现的问题。

Janowicz说:“即使对于单个实体中的部门,交换数据也很困难,因为在一个数据筒仓中讨论问题的方式与在另一个数据筒仓中讨论的方式不同。”

进入知识图:技术、规范和数据文化的组合,以人、机器可读和可推理的方式跨域紧密连接web级数据。对于这个项目,应用于互连数据的主要排序原则是空间和时间。

空间和时间之所以重要,不仅因为每件事都是在某个时间某个地点发生的,而且因为知道事情发生的地点和时间对于理解它们为什么以及如何发生或将如何发生至关重要。例如,气候如何影响严重依赖农业的地区的政治?今天的土壤健康和历史上的奴隶贸易之间有联系吗?像这样的问题往往需要花费大量的时间和精力来回答,而且往往与之前的研究重复。

Janowicz解释说:“相反,您可以将本地知识存储库连接到全局存储库,从而获得关于域或问题的整体视图。”这得益于计算能力和数据存储的增长。

这是一个巨大的努力。数据可以有多种形式,从数值测量到图像再到文字描述。研究者的工作——他们来自UCSB的空间研究中心,地球研究所和国家生态中心的分析和合成,以及亚利桑那州立大学,密西根州立大学,堪萨斯州立大学,美国地质调查局和行业合作伙伴,如ESRI Oliver Wyman,普林斯顿气候分析是开发人工智能方法,将这些庞大的信息集合组织成可以跨学科阅读和理解的格式和关系,利用空间和时间作为排序原则。

“我们想开发一个知识图与其他高校的合作伙伴,主要行业参与者和政府组织包含空间数据,我们也想让方法用于很多其他知识图表使用空间数据,或者想要丰富他们的数据使用空间数据,“Janowicz说。他解释说,这大部分可以通过机器学习模型来完成,这些模型可以消化生成的大量和各种类型的数据,然后将这些数据组织成图表,以显示给定主题的知识广度和深度。

他进一步解释说,该产品将是密集的、可广泛访问的知识图,不仅可以追溯到历史背景,还可以拓宽我们目前的选择和风险,并允许我们对未来的事情做出明智的预测。例如,考虑到我们已经掌握的有关当地气候、土壤健康和水土流失的数据,2018年加州蒙特西托发生的那种灾难性泥石流再次发生的可能性有多大?那会如何影响当地的土地利用规划和房地产?

Janowicz说:“目前,你无法通过连接极端事件数据库来查询侵蚀风险。”“但这应该是这个星球上最容易的事情。这些正是我们正在解决的问题。”

最初的授予是在9个月,共计100万美元,是NSF的一部分的新融合加速器,使研究团队构建工具,利用数据革命和允许人们从不同的部门——政府、学术界、工业、非营利组织——访问和使用数据在一个开放的知识网络。

新闻旨在传播有益信息,英文原版地址:https://www.news.ucsb.edu/2019/019651/breaking-data-out-silos