分类
杜克大学新闻

利用无序的统计数据来解开现实世界中的混乱

选举民调、医院记录和叙利亚冲突有什么共同点?医院如何利用病人的生命体征实时计算其心脏骤停的风险?

Duke statistical science professor Rebecca Steorts

杜克大学统计科学教授丽贝卡·斯托茨说

统计学家Rebecca Steorts正在开发先进的数据分析方法来回答这些问题和其他紧迫的现实问题。她的研究领域从计算机科学到生物统计学,从医院护理到人权。

斯特尔茨的研究重点之一是估算叙利亚内战中的死亡人数。她正与杜克大学(Duke)的研究小组和人权数据分析小组(Human Rights Data Analysis group, https://hrdag.org/)合作,将死亡记录数据库合并为冲突中死亡的单一主列表,这项任务被称为记录链接。

“记录链接的关键问题是:您有这些重复的信息,如何删除它?”Steorts解释道。例如,来自不同组织的记者可能在他们的数据库中独立地记录相同的死亡。在确定准确的死亡人数之前,必须将这些重复数据删除。

乍一看,这似乎是一个简单的任务。但是印刷错误、信息缺失和记录不一致使寻找重复成为一个复杂和费时的问题;一个简单的算法需要几天的时间来整理所有的记录。因此,Steorts和她的合作者设计了一种软件,使用强大的机器学习技术来筛选不同的数据库。2015年,她因在叙利亚冲突方面的工作被《麻省理工学院技术评论》(MIT Technology Review)评为35位35岁以下创新者之一。她认为很多同事和学生对项目的贡献,包括Anshumali Shrivastava(莱斯大学),梅根价格(HRDAG),布伦达·贝当古和阿巴斯扎(杜克大学),杰夫•米勒(哈佛生物统计学,杜克大学前身),汉娜瓦拉赫(微软研究院),和贾科莫·Zanella(博科尼大学和杜克大学的游客在2016年)。

斯特尔茨估计叙利亚冲突死亡人数的工作仍在继续,但人权不是她计划研究的唯一领域。“我认为我的工作是跨学科的,”她说。“对我来说,最重要的是应用。”

最近,Steorts、他的同事Ben Goldstein、学生Reuben McCreanor和Angie Shen一直在对杜克医疗系统的医疗数据应用统计方法。她的最终目标是找到可以用于许多不同应用程序和数据集的技术。

cof

2017届北卡罗来纳科学与数学学院(North Carolina School of Science and Math)学生邓安琪(Angela Deng)的客座文章

新闻旨在传播有益信息,英文原版地址:https://researchblog.duke.edu/2017/01/03/using-the-statistics-of-disorder-to-unravel-real-world-chaos/