从追踪病例和死亡,到了解人口在旅行限制期间如何移动,再到疫苗设计,数据科学在抗击COVID-19的斗争中做出了重要贡献。哈佛数据科学计划(Harvard Data Science Initiative)致力于支持教职员工、学生和研究员设计和应用统计学和计算机科学工具,并创建一个促进思想流动的社区。今年夏天,刚出版一年的《哈佛数据科学评论》(Harvard Data Science Review)在网上发表了一期专门讨论新冠肺炎的专刊,将更新最新的发现,目的是促进创新,让有关数据科学如何帮助应对新冠肺炎挑战的讨论继续进行。《阿肯色州公报》与弗朗西斯卡Dominici,克拉伦斯•詹姆斯赌博生物统计学教授,哈佛大学陈T.H.人口和数据科学的公共卫生学院和联合倡议,孟小李,审查的主编和惠普尔V.N.琼斯教授在艺术与科学学院统计,数据科学如何可以用来迎接今天的挑战,而反过来,面临的挑战。
Q&
弗朗西斯卡·多米尼西和小李孟
GAZETTE:数据科学对我们理解和应对COVID-19有何重要意义?
多米尼西:数据科学每天都会出现在《纽约时报》的头版上。我认为,大流行无疑提高了人们对数据科学的重视,它是一门重要的学科,可以帮助我们解决影响社会的巨大挑战。对于理解COVID-19的几乎所有关键方面,数据科学正变得至关重要。包括COVID-19疫苗的开发和测试,理解速度的因素,感染,理解空气传播的作用——这是至关重要的,了解我们是否能重新开放学校,识别环境和社会经济因素,和跟踪移动,以便更好地理解关键行为干预遏制病毒的传播。例如,我的一些研究是关于污染和COVID-19的,加州的野火使这一问题变得更加严重。很难想象没有数据科学方法和前沿挑战的COVID-19案例,哈佛所有学院的教员都在做数据科学和COVID-19交叉领域的前沿研究。
GAZETTE:数据科学是如何帮助决策者和其他人更清楚地思考不确定性的?
孟:如果说COVID-19有什么好消息的话,那就是它让每个人都意识到理解不确定性的重要性。你如何评估不确定性?在不确定的情况下如何计划?为本期新冠肺炎特刊,我们推出了名为“与领导人对话”的新专题,首先采访了拉里·巴科总统。我们问他,他是如何利用数据来为哈佛3月份的关闭做计划,并决定如何在今年秋天重新开放。他说,关门更容易,因为风险是不对称的:如果我们关门太早,结果什么都没有,他会被嘲笑,但领导者总是会被嘲笑。但如果哈佛关闭得太晚,导致人们死亡,那是我们无法忍受的。决定如何开放要困难得多,因为有更多的未知。学生年龄较小,受COVID-19影响较小。但是巴科夫校长不得不担心整个大学社区——教职员工和不同年龄段的人。它非常复杂。我们与麻省理工学院校长l拉斐尔赖夫(L. Rafael Reif)进行了第二次对话,问了他同样的问题。麻省理工学院设计了宿舍来帮助学生相互交流,这现在成了一个挑战。我们讨论了如何与专家交流以了解风险,但由于不确定性,没有人确切知道。总的来说,我们希望我们能得到一个更好的画面——我不认为我们能得到一个完美的画面——而哈佛数据科学评论是一个聆听所有这些不同声音和不同观点的地方。
宪报:很多人一直在与不确定性作斗争,但公众可能不太理解不确定性在这场大流行中所扮演的核心角色。领导者被迫根据不完善的,甚至是相互矛盾的信息做出决定。你能谈谈在没有“是”或“不是”答案的情况下,数据科学是如何帮助我们的吗?
多米尼奇:我们都感到了对不确定性进行量化和交流,以及接受在不确定性下做出决定的必要性的重要性。不幸的是,一些领导人希望在决策时排除不确定性,而数据科学家希望承认不确定性,这并不意味着他们(数据科学家)不能提供新的信息并指导决策。结果造成了巨大的紧张。
宪报:不确定性意味着你应该摒弃发现,因为我们不确定,即使在你的领域,不确定性意味着你使用所有可以使用的工具来找到一条可能的,可能是最可能的成功之路,这是否存在误解?
孟:我们和BBC新闻统计部门的负责人就这个问题进行了对话。作为数据科学家或统计学家,我们喜欢提出所谓的“置信区间”。我们说,“我们不确定它是什么,但有一个范围。”但具有讽刺意味的是,表示信任间隔可能会导致公众对我们失去信心。许多人想要一个数字,尽管现实是我们不能生产一个数字,因为即使是最好的可能的数字也有太多的不确定性。我们与Brief19的主编Jeremy Faust进行了交谈,他是哈佛大学的教员,也是急诊医生。他说,很难估计到底有多少人死于COVID19。你可能会认为这是一个微不足道的问题,但我们很早就知道,有些人的死亡与COVID-19无关。然而,现在有可能存在过度归因,因为无论何时人们死于多种可能的原因,如果其中一种是COVID-19,那么很可能会被报告。
GAZETTE记者:我知道你在用这个例子来说明一个更广泛的问题,但是关于COVID-19死亡人数估计的争论非常激烈。你知道数据科学是在推动哪个方向的数字,更高或更低的官方估计?
作为一个真正的统计学家,要回答这个问题,我不相信任何单个数字,因为它们应该是一个范围。另一个让这变得难以置信的困难是数据质量。世界卫生组织引用了HDSR的一篇论文《关于确定和减轻COVID-19病死率估算中的偏差》,该论文处理了在计算病死率时的多个统计偏差来源。所以,我们不使用任何单个数字,我们来计算所有这些不同的情况然后看看这些数字的范围是什么。在某种程度上,你可以从媒体是如何不断修正数据中看出这一点。尽管他们一次只报告一个数字,但这些修订有效地反映了各种假设的状态。
多明尼契:有两个巨大的复杂问题。首先,这还在发展,因为我们还处在疫情的中期。这些数据不断出现,所以所有这些分析都必须以一种可以例行重复的方式来执行。但我认为最大的挑战是,当你考虑范围时,在范围内选择哪个数字会产生巨大的政治和经济后果。这就是为什么的角色数据科学与数据科学审查的作用是对这些挑战是透明的,所以当我们回顾性观察数据科学的贡献这个话题,很明显,我们一直严格和我们没有党派以这样或那样的方式。
GAZETTE:在过去的几个月里,有没有一些关键的数据科学发现没有得到足够的关注?
孟:这个领域的大多数人从一开始就怀疑,但却没有得到足够的重视的关键发现是,数据的质量真的很低。我们都明白没有人会受到责备,因为我们都在挣扎,当每个人都在试图拯救生命时,很难收集数据。无论你能收集什么数据,你都会收集。在医疗界,有处理紧急情况的惯例,我们有紧急协议,急诊室等等。但在数据科学领域,我们没有快速反应团队的概念。所以当这样的事情发生时,我们是毫无准备的。我们希望在不侵犯隐私的情况下分享数据,但当人们疯狂地试图拯救生命时,你如何收集准确、及时的数据呢?对于大多数医生来说,他们并没有考虑收集数据,但如果你从大局出发,收集可靠的数据也是为了拯救生命。
我认为人们开始更加关注的另一个问题是如何应对社会困境,比如保护隐私?追踪人们的行动无疑有助于了解这种流行病的演变,但其中存在着巨大的隐私问题。你如何达到正确的平衡?过去我们有指导方针,但这次大流行是全球性的,不同的国家有不同的处理方法。一篇特别的文章,《通过负责任的人工智能创新应对COVID-19:正确方向上的五个步骤》,正受到广泛关注。这是我们发表过的最长的论文,超过16000字。作者提出了处理这些复杂而又困难的问题的指导原则,这些问题确实没有独特的解决方案。这些都是非常棘手的问题,而且,归根结底,这些问题不是数据科学家——或者任何单个团队——能够解决的。这是一个社会问题:我们想要多少交换?
多米尼西:回到小李的起点,一个没有得到足够重视的问题,没有好的数据就没有好的数据科学。我认为,我们正在学习,但我们必须做得更好,以确保数据的可用性。应提供COVID-19病例的全国登记。有些州公布了数据,有些州没有。绝大多数关于COVID-19的研究都是利用来自约翰霍普金斯大学网站的数据进行的。他们一直处于前沿,但这些数据是在美国的县级水平上,我们希望看到个人的数据。这要追溯到小丽所指出的建立应急机制以收集高质量数据的问题上。没有简单的解决办法,但我认为这是我们应该努力的事情。我们还需要一个COVID-19病例和死亡病例的国际登记处。移动数据存在隐私问题,但案件数据的问题较少,因为它们可以被识别。我们需要年龄、种族和性别。政客们根据证据做出决定,所以我们需要得到最好的证据。
GAZETTE:我昨天和一些人谈到了人工智能和COVID,他们也说了同样的话。人工智能在我们的COVID响应中或多或少令人失望,原因是数据质量非常低。
多明尼契:如果你不用高质量的数据训练这些算法,它们就不是智能的。你将会得到人工愚蠢,而不是人工智能。
孟:问题是,激励结构是不正确的。收集数据并不能让你成为英雄,但数据本身是最基本的。不久前,我与一些深入参与国家数据和统计的人进行了交谈。我问他们想看到什么样的大改革,他们的第一个回答是健康记录数据。收集这些数据并不容易,因为除了数据本身,还涉及到其他事情。不幸的是,我们很多人都有多种疾病,医生应该根据他们的医学判断来确定哪一种是最主要的。在大多数情况下(很可能会发生)。但也有一些动机,把最可能获得最多保险赔偿的首要条件指定为一个。它非常复杂,但大多数时候我们不知道并发症,我们只知道结果:有多少病例被报道。但人们在进行分析和预测时,并不知道潜在数字的真正含义。我们需要一个国家协议来做这些事情。另一个大问题是,你需要一支受过良好训练的劳动力队伍来站在收集数据的前沿。他们应该能够查看数据,知道什么时候“看起来不正确”,并理解他们在收集数据时所做的决策将直接影响随后的分析。正在努力提供这样的培训,正如“通过数据改变:政府雇员的数据分析培训计划”所报告的那样。
宪报:我们为什么不谈谈《哈佛数据科学评论》的起源呢?弗朗西斯卡,为什么创始者决定出版这样的刊物是个好主意?
多米尼契:《哈佛数据科学评论》是在全世界传播数据科学的完美方式。先退一步说,数据科学计划于2017年启动,其目标是跨院系合作,吸引和激活数据科学先驱,以应对人文学科面临的重大挑战。我们希望创建一个研究人员高度合作的网络,以扩大数据科学发现在学术界和社会中的影响。数据科学计划主要关注研究和组织教育会议。我们有一个非常成功的企业会员计划。我们希望联合我们的顶尖计算机科学家、统计学家和法律、商业、公共政策、教育、医学和公共卫生领域的专家。所以,当小李有了创办杂志的想法时,我们非常高兴。很明显,数据科学不仅仅是统计;不仅仅是计算机科学;这确实是一个新的学科,我们需要整合和利用不同领域的专业知识。
宪报:这篇评论的目标受众是谁?科学家吗?公众吗?
数据科学已经成为一个巨大的生态系统,正如我在我的第一篇社论中所写的那样。在大多数人的心目中,数据科学就是机器学习、计算机科学和统计学。但它包括数据收集和分析中的伦理问题、流行病学家关于COVID-19、人工智能的工作,以及一直到量子计算的主题。因为从事数据科学工作的人在他们的专业领域正在取得进展,所以没有一个单独的地方可以聚集在一起交流有关数据科学的想法和发现。至于评论的内容,我们当然需要学术研究,因为数据科学建立在严格的理论和方法之上是很重要的。我们当然也想强调影响,因为如果没有它的影响,数据科学就不会存在。而且,我们是一所大学,所以包括数据科学教育绝对是至关重要的。当一个营销团队问:“谁是你的目标受众?”我回答说:“我们的目标是每个人。”他们说我疯了。但这就是数据科学应该有的样子。
宪报:你能给我们介绍一个典型的问题吗?
评审有四个主要部分。“全景”展示了思想领袖们对任何与数据科学相关的事物——哲学、工业、政府。“聚宝盆”以影响、创新和知识转移为特色,突出了数据科学在任何领域的应用。“垫脚石”包括学习、教学和交流。最后是“里程碑和磨盘”,在这里更深的材料运行。我们也有不同主题的专栏。最近的一个例子是英国的一个喜剧演员写的,她谈到了统计应该“停止炫耀那些曲线”。还有针对大学生和普通大众的专栏,比如“机器学习能预测艺术品的拍卖价格吗?”和《成功的秘诀:家庭厨房中的数据科学》(Recipes for Success: Data Science in the Home Kitchen)。“我们有关于人工智能历史和棒球历史的专栏。这里的目标是,任何人都可以找到这个问题,任何问题,并找到至少一篇文章,他们说,“嗯,这是有趣的。你可能读了一篇没有公式的文章,然后转到另一篇文章,想:“天哪,怎么会有人读到这篇文章?”“从本质上说,它就像一本用多种语言出版的杂志。你从中得到什么取决于你是谁。
相关的
将数据科学用于社会公益
横跨校园的链接
新时代的数据科学
封锁?锁定是什么?
宪报:明年的计划将走向何方?
多米尼奇:我们改变了今年的工作重点,因为COVID-19的情况和种族歧视的情况。这些都是我们需要注意的。这给我留下了深刻印象,因为我们的哈佛博士后数据科学研究员联系了我们,他们说,“我们真的想考虑数据科学在解决种族偏见方面的作用。因此,该计划的目标是通过数据科学的视角,更多地关注这些更广泛的概念。我们已经宣布了一系列活动,着眼于负责任的数据科学和揭示歧视偏见的数据科学。我们将举办一系列研讨会,并提供研究资金,以利用数据科学揭露偏见,并理解和解决设计不良的数据科学的使用,这些数据科学加剧了偏见和不公平。有很多例子表明,如果你正在训练人工智能中使用的机器学习模型,例如,来自白人群体的遗传或诊断数据,那么你就无法对黑人群体正在发生的事情做出结论。我们都知道刑事司法中有加剧偏见的例子。我们还有一个非常强大的企业会员计划和另一个关于信任科学的旗舰计划:我们如何通过利用数据科学来增加公众对科学的信任?例如,人们会在多大程度上愿意接受新的COVID疫苗?
为了清晰和篇幅,本文进行了编辑。
新闻旨在传播有益信息,英文原版地址:https://news.harvard.edu/gazette/story/2020/09/harvard-journal-keeps-data-scientists-connected-during-covid/