分类
哈佛大学新闻

分析人士说,由于“大数据悖论”,两项早期疫苗调查变得一文不值

去年春天,当德尔菲-脸书和美国人口普查局提供COVID-19疫苗接种估计时,他们的每周报告收集了多达25万人的回应。

这些数据集在统计上的误差幅度很小,提高了人们对数据正确性的信心。但是,当疾病控制和预防中心报告实际的疫苗接种率时,这两个调查结果相差很大。到5月底,德尔菲-脸书的研究高估了疫苗接种率17个百分点——根据CDC的数据,是70%对53%——而人口普查局的家庭Pulse调查也高估了14个百分点。

比较分析,统计学家和政治科学家从哈佛,牛津大学和斯坦福大学认为调查牺牲品”大数据矛盾,“数学趋势大数据集的一种类型的错误降到最低,由于小样本大小,但放大另一个会得到较少的关注:与系统偏见有关的缺陷使样本无法代表更大的群体。

大数据悖论是该研究的作者之一、哈佛大学惠普尔V.N.琼斯(Whipple V.N. Jones)统计学教授小李·孟在2018年分析2016年总统大选期间的民调时发现并创造的。以预测希拉里·克林顿(Hillary Clinton)获胜而闻名的民调受到了“无反应偏见”的影响,在这次调查中,特朗普的选民倾向于要么不回应,要么把自己定义为“尚未决定”。

孟说,有偏见的大数据调查可能比没有调查更糟糕,因为没有调查,研究人员至少知道他们不知道答案。当人们对潜在的偏见理解不足时——就像2016年大选那样——它可能会被大样本量创造的信心所掩盖,导致研究人员和读者误入歧途。

该论文的作者在周三发表在《自然》(Nature)杂志上的分析中写道:“数据规模越大,当我们未能解释数据收集中的偏见时,我们就越有把握欺骗自己。”

作者指出,在这些结果的基础上采取行动时,误导性的结果尤其有害。例如,一项调查显示70%的人接种了COVID疫苗的州的州长可能会放松公共卫生措施。如果实际接种率接近55%,这一举措可能会导致病例激增和COVID – 19死亡人数上升。

“在世界各地,政策制定者和科学顾问都在试图理解COVID数据,”牛津大学副教授、哈佛大学计算机科学和数学项目2008届毕业生、论文通讯作者赛斯·弗拉克斯曼(Seth Flaxman)说。“报告的病例只是真实感染病例的一小部分,COVID-19导致的死亡严重低估了这场大流行的真实死亡人数,电子医疗记录并没有让我们全面了解COVID。当涉及到调查数据时,各种数据质量问题,如接种疫苗的受访者更有可能对调查做出回应,以及边缘化群体的代表性不足,都可能导致不正确的估计。”

虽然众所周知,调查的准确性来自于数据的数量和数据的质量,但近年来,随着技术极大地提高了我们收集和处理大量数据集的能力,数量已经偷走了聚光灯。Shiro Kuriwaki说,这种不平衡应该让研究人员保持警惕。Shiro Kuriwaki是这篇论文的第一作者,他去年春天从哈佛大学获得了政府管理博士学位,现在是斯坦福大学的博士后研究员。

Kuriwaki说:“人们渴望获得尽可能大的数据集,而现代技术大数据让这成为可能。”“这使得我们可以进行比以往任何时候都更细的分析,但我们需要注意的是,数据的偏差会随着样本容量的增大而加剧,这可能会影响到子群体。”

十年前,当他和其他统计学家在哈佛大学会见一位来访的美国人口普查局官员时,孟开始思考大数据带来的问题。使用收集的数据国税局税收的假想,官方统计学家问他们是否会喜欢一个样本覆盖5%的人口,他们知道是代表更大的人口,或国税局的数据,但是他们不确定是代表覆盖80%的人口。统计学家选择了5%。“如果是90%呢?”官员问道。统计学家仍然选择了5%,因为对数据的扎实理解意味着,他们的答案可能比基于一个更大的、带有未知偏见的集合的答案更准确。

孟说:“每个数据集都有某些怪癖,但问题是,这些怪癖是否与你的问题有关。”他的研究得到了美国国家科学基金会的部分资助。“社交媒体有大量的数据。他们可能认为他们有一个公共样本,但可能没有意识到他们的人口是有偏见的开始。”

事实上,即使研究人员注意到这一点,无反应偏见仍然是有害的。例如,Kuriwaki和当前研究的另一位合著者、哈佛大学本科生迈克尔·伊萨科夫(Michael Isakov)在2020年的一篇文章中正确预测了2020年总统选举的过度自信,尽管2016年之后引入了新方法。

伊萨科夫说:“在目前的论文中,我们发现,尽管Delphi-Facebook和人口普查局的研究人员都试图解释潜在的问题,但他们的修正根本不足以消除所有的偏见。”

这项与牛津大学的Dino Sejdinovic共同进行的研究确定了疫苗接种调查中可能存在偏见的领域。德尔菲- facebook的报告取材于该社交媒体网站的日常用户,没有考虑教育水平、种族和民族等因素。人口普查局的研究修正了教育和种族和民族,但两项调查都没有收集关于受访者党派立场的数据,这可能会影响疫苗的吸收。此外,他们都没有调整样本以代表城市和农村地区的分布,这是另一个潜在的重要因素。

“美国政府今年花费数十亿美元进行有针对性的推广活动,试图让没有接种疫苗的人接种疫苗,”瓦莱丽·布拉德利(Valerie Bradley ‘ 14)说。她毕业于哈佛大学统计学项目,在牛津大学攻读博士学位,是这篇论文的第一作者。“如果你是根据人口普查局(Census Household Pulse)或Facebook的调查来引导这一点,你可能真的把数十亿美元投入了错误的社区。”

相比之下,Axios-Ipsos开展了一项更传统的调查,只有1000名受访者,研究人员费尽心思确保样本能够代表更大的人群。他们考虑了教育、种族、民族、政治党派等因素,甚至为“离线”受访者提供了可以上网的平板电脑,以确保他们的观点得到登记。尽管样本量较小,Axios-Ipsos估计的疫苗摄入量与CDC的数字相似。

的最终效果未修正的偏见在大的民意调查中,作者说,是Delphi-Facebook民意调查,尽管测量250000名受访者,有偏见的有效样本大小调整后不到10 2021年4月,从他们的原始每周平均样本量减少99.99%。同样,每周统计7.5万个回复的人口普查局家庭脉搏(Census Household Pulse)在2021年5月的有效样本量也降低了99%。

“如果你有资源,在数据质量上的投资要远远超过在数据数量上的投资,”孟说。“低质量的数据从本质上抹杀了你认为自己拥有的能力。这一直是个问题,但现在因为我们有了大数据,这个问题被放大了。鉴于美国疾病控制与预防中心一直在跟踪接种疫苗的数量,我们不需要依赖调查数据来估计总体接种率。但当涉及到行为、接种疫苗的群体、犹豫和获取疫苗的障碍时,准确的调查是重要的。随着成人疫苗的吸收量持续增加,在美国,第一次接种的成人疫苗的吸收量接近85%,我们有必要对我们的知识有限保持一点谦虚。但我们可以肯定一件事:美国20个成年人中有3个对疫苗没有保护,我们需要加倍努力让他们接种疫苗。”

相关的

Xiao-Li Meng and Francesca Dominici.

一个紧急响应小组来收集数据?

《哈佛数据科学评论》播出COVID-19研究结果

Vials of booster vaccine

打破助推器

当我们得到助推器时,我们的免疫系统会发生什么? COVID助推器还会在名单上吗?

COVID-19 vaccine.

COVID – 19疫苗的有效性同样重要

在低收入和中等收入国家,采购和分配的速度可以最大限度地提高公共卫生效益和经济效率

文章旨在传播新闻信息,原文请查看https://news.harvard.edu/gazette/story/2021/12/vaccination-surveys-fell-victim-to-big-data-paradox-harvard-researchers-say/