分类
麻省理工学院新闻

加速数据驱动的发现

生命科学公司使用范式4独特的数据库管理系统来揭示人类健康的新见解。

随着单细胞基因组测序、增强生物医学成像和医疗“物联网”设备等技术的激增,人们越来越多地在复杂的生命科学和健康数据的巨大宝库中发现有关人类健康的关键发现。

但是,从这些数据中得出有意义的结论是一个困难的问题,它可能涉及到将不同的数据类型拼凑在一起,以及操纵庞大的数据集以应对不同的科学调查。这个问题既与计算机科学有关,也与其他科学领域有关。这就是范式发挥作用的地方。

该公司由Marilyn Matz SM ‘ 80和图灵奖获得者、麻省理工学院教授Michael Stonebraker创建,帮助制药公司、研究机构和生物技术公司将数据转化为真知灼见。

它通过一个从头开始构建的计算数据库管理系统来实现这一点,该系统可以在生命科学研究的前沿托管各种不同的、多方面的数据。这包括来自国家生物数据库、临床试验、医疗物联网、人类细胞图谱、医学图像、环境因素和多组学的数据,多组学是一个包括基因组、微生物群落、代谢体等研究的领域。

除了该系统独特的体系结构外,该公司还构建了数据准备、元数据管理和分析工具,以帮助用户找到隐藏在所有这些数字中的重要模式和相关性。

在很多情况下,客户都在研究创始人所说的数据集,这些数据集太大、太复杂,无法用传统的数据库管理系统有效地表示。

Matz说:“我们希望能让科学家和数据科学家做一些以前做不到的事情,让他们更容易处理大规模计算和对不同数据的机器学习。”“我们正在帮助科学家和生物信息学家进行合作、可重复的研究,以更快地提出和回答难题。”

一个新的范例

Stonebraker几十年来一直是数据库管理系统领域的先驱。他创办了九家公司,他的创新为现代系统允许人们组织和访问大型数据集的方式设定了标准。

Stonebraker的职业生涯主要集中于关系数据库,它将数据组织成列和行。但在2000年代中期,Stonebraker意识到,生成的大量数据最好不是以行或列的形式存储,而是以多维数组的形式存储。

例如,卫星将地球表面分割成许多大的正方形,而GPS系统会随着时间的推移跟踪一个人在这些正方形中的运动。该操作涉及垂直、水平和时间度量,在关系数据库系统中,这些度量不容易分组或以其他方式操作以进行分析。

Stonebraker回忆说,他的科学同事们抱怨说,现有的数据库管理系统在处理基因组学等领域的复杂科学数据集时太慢了。在基因组学领域,研究人员研究人口规模的多重组学数据、表型数据和医疗记录之间的关系。

Stonebraker解释说:“[关系数据库系统]可以水平或垂直扫描,但不能两者都扫描。”“所以你需要一个同时具备这两种功能的系统,这就需要一个位于系统底部的存储管理器,它能够在一个非常大的数组中水平和垂直移动。范式就是这样做的。”

2008年,Stonebraker开始在MIT开发一个数据库管理系统,该系统可以将数据存储在多维数组中。他证实了该方法提供了主要的效率优势,允许基于线性代数的分析工具,包括许多形式的机器学习和统计数据处理,以新的方式应用于大型数据集。

Stonebraker在2010年决定将这个项目转变成一家公司,当时他与Matz合作,Matz是一位成功的企业家,他与人共同创立了Cognex公司,这是一家大型工业机器视觉公司,于1989年上市。创建者和他们的团队着手构建系统的关键特性,包括允许系统在低成本服务器上运行的分布式体系结构,以及为用户提供有用方式的自动清理和组织数据的能力。

创始人将他们的数据库管理系统描述为科学数据的计算引擎,并将其命名为SciDB。在SciDB的基础上,他们开发了一个名为REVEAL discovery engine的分析平台,该平台基于用户的日常研究活动和愿望。

“如果你是一名科学家或数据科学家,Paradigm的REVEAL和SciDB产品可以处理所有的数据争论和计算‘管道和线路’,因此你不必担心访问数据、移动数据或设置并行分布式计算,”Matz说。“你的数据是科学的。只要提出你的科学问题,平台就会为你安排所有的数据管理和计算。”

SciDB被设计为科学家和开发人员都可以使用,因此用户可以通过图形用户界面或利用统计和编程语言(如R和Python)与系统进行交互。

“销售解决方案非常重要,而不是构建模块,”Matz说。“我们在生命科学领域的成功很大程度上得益于顶尖的制药公司、生物技术公司和研究机构,它们为我们揭示了一系列针对特定应用的问题解决方案。我们没有给他们一个分析平台,那是一套乐高积木;我们为他们提供解决方案,处理他们每天处理的数据,使用他们的词汇,回答他们想要解决的问题。”

加速发现

如今,paradigm的客户包括一些世界上最大的制药和生物技术公司,以及美国国立卫生研究院、斯坦福大学等地的研究实验室。

客户可以将基因组测序数据、生物计量测量、环境因素数据等整合到他们的查询中,从而在一系列生命科学领域实现新的发现。

Matz说SciDB 10亿线性回归在最近的一个基准,不到一个小时,它可以很好地伸缩除此之外,可以加快发现和更低的成本为研究人员不再需要从文件中提取数据,然后依靠低效率cloud-computing-based方法大规模应用的算法。

“如果研究人员能够在几分钟内完成复杂的分析,而以前需要几天的时间,那就会极大地改变你能够提出和回答的难题的数量,”Matz说。“这是一个力量倍增器,将改变每天的研究。”

除了生命科学,范式4的系统还为处理多层面数据的任何行业带来了希望,包括地球科学(Matz说NASA的一位气候学家已经在使用该系统)和工业物联网(数据科学家考虑大量不同的数据来理解复杂的制造系统)。马茨说,公司明年将更加关注这些行业。

然而,在生命科学领域,创始人相信他们已经有了一种革命性的产品,能够创造一个新的发现世界。最后,他们看到了SciDB,并揭示了它对国家和世界卫生研究的贡献,这将使医生能够提供可以想象得到的最明智的、个性化的治疗。

“每个医生都想知道的问题是,当你走进他或她的办公室,展示一系列症状时,医生会问,‘在这个国家的数据库中,谁的基因与我的相似,症状与我的相似,生活方式与我的相似?’”他们的诊断是什么?他们的治疗方法是什么?它们的发病率是多少?”Stonebraker解释道。“这是把你和其他人交叉联系起来,做非常个性化的药物,我认为这是我们力所能及的。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2020/paradigm4-data-0405