分类
加州大学圣芭芭拉分校新闻

创意管理

对一些人来说,收藏管理可能看起来就像布满灰尘的簿记——组织、分类、处理样本贷款。但现代的收藏品实际上相当复杂。这些资源正开始与工业和科技领域的大数据业务竞争。

加州大学圣巴巴拉分校主办了几十个系列,其中许多属于钱德尔生物多样性和生态恢复中心(CCBER)的范围。该中心的主任Katja Seltmann正在应用来自计算机和信息科学的技术来革新我们对研究收集的海量数据集的使用。她正在将这些方法应用到一项430万美元的国家科学基金项目中,该项目旨在研究陆地寄生虫。

Seltmann是NSF新陆地寄生虫追踪项目生物多样性信息学部分的负责人,该项目涉及27个不同的研究机构。她解释说,节肢动物是全球人类疾病的主要带菌者,但科学家不知道它们将如何应对环境的变化。

她和她的同事们正在使用本体论(ontology)来构建这些信息:描述特定领域内的属性和关系的一组概念和类别。生物体的科学名称系统和我们将它们分类的类别就是存在论的一个例子。

“我们希望非常正式地在我们的声明和那些声明中的条款之间建立结构化的联系,”Seltmann说。这种结构将使研究人员能够利用强大的统计技术和自然语言处理。

卡利普特拉细角蛾是一种吸血蛾子,它以水果和血液为食。

照片来源:LUCINDA GIBSON &肯·沃克,维多利亚博物馆,抄送3.0 AU

例如,一些吸血蛾子以水果为食,它们会刺穿水果的皮肤,但它们偶尔也会吸血。因此,这个观察结果被分解成一些短语,如“吸血蛾:吃血”和“吸血蛾:吃水果”。这个短语中的所有术语在在线数据库中都有正式的定义。这些物品有额外的标签,如“在自然环境中”和“在实验条件下”。

Seltmann计划在Ontobee上使用本体,Ontobee是为本体设计的在线数据服务器。这些是为许多项目开发的,并广泛用于注释基因组和理解模型生物。这个系统已经有大量的术语和关系可以利用。

“像‘宿主’或‘生物相互作用’这样的术语已经存在了,”她说,“然而,注释和分享复杂思想的能力——比如物种x和物种y在身体的某个部位相互作用——是一个更难的问题。”“全球生物互动是一个工具,有助于这个过程,以及其他数据库管理自然历史收集信息。

陆地寄生虫追踪项目覆盖了130万个节肢动物寄生标本。“收集是研究节肢动物的关键,”Seltmann说,“因为它们的数量太多了。”

昆虫学研究生雷切尔·贝姆从预备室的箱子里挑选昆虫。大厅对面的另一个房间收藏了大量的收藏品。

照片来源:哈里森·塔索夫

更重要的是,很多关于这些样本的重要信息是定性的,特别是寄生虫和宿主之间的关系。

她正在研究的本体论和信息学将使这些集合向新方法开放,并使各机构能够方便地将它们的资源用于大规模研究。

Seltmann说:“我们正在讨论的陆地寄生虫追踪项目是生物多样性信息科学的下一代,以及它如何能够彻底改变我们研究生物多样性的方式。”

在过去的几十年里,我们使用数据的方式发生了变化,需要更先进的方法来搜索和共享信息。研究人员开始在许多标本中使用信息分析,而不是简单地观察单个标本。

这些信息中有些是文本,但很多是不太具体的,这使得整合到一个可搜索的数据库更加困难。例如,标本被采集的时间,它相对于其他个体的大小,它与其他生物的联系以及它在栖息地的特征。

研究人员通常会在样本的记录中包含定性信息,但个体间用词的差异意味着,这种方法通常无法利用传统的大数据工具进行分析。Seltmann的目标是设计出一种方法,使计算机和人类都能访问这类信息。事实上,生物多样性收集网络最近发布了一份报告,详细介绍了如何将标本数据连成网络,成为自然历史收集的下一个发展方向。

“这是一种思考自然历史收藏品的整体方式,”Seltmann解释道。“每个样本都是具有某些性质的一小块信息,但如果我们把它们放在一起,我们就能提出真正重大的问题。”

新闻旨在传播有益信息,英文原版地址:https://www.news.ucsb.edu/2019/019678/creative-curation