分类
哈佛大学新闻

Mining Facebook data for scienceMining Facebook data for scienceGame-changing game changesGame-changing game changes

对于社会科学家来说,今年的圣诞节似乎来得太早了。

这是因为,就在哈佛大学(Harvard)的加里•金(Gary King)写了一篇关于一个系统的学术论文几个月后,这一系统即将成为现实。该系统将允许研究人员访问Facebook和其他私人公司持有的海量数据。

斯坦福大学(Stanford University)教授纳撒尼尔·佩西利(Nathaniel Persily)合作,阿尔伯特·j·韦瑟黑德三世大学(Albert J. Weatherhead III University)教授金创建了一个名为“社会科学一号”(Social Science One)的组织,该组织将负责识别Facebook内部的数据,为研究人员做好准备,并资助众多学者分析数据。

研究组织今天提供第一个王所说的许多数据集,数量超过一万亿,包括每一个环节去年Facebook用户的点击,点击信息类型的人,及指标是否链接被认为是故意虚假新闻。

金说:“作为社会科学家,我们的目标是了解并解决影响人类社会的最大挑战。”他说:“20年前,世界上几乎所有应对这些挑战的数据都是由我们学院的学生、政府提供给我们的数据,或者是私营公司提供给我们的数据。”“但问题是,即使我们拥有比以往任何时候都多的数据,我们拥有的世界正在创造的数据的比例却更小。大多数对社会科学有用的数据现在都被锁定在私人公司里。社会科学一号是为社会科学家解锁这些数据的重要机制。”

他说,他们将能够访问的数据量是“非凡的”。

“在数量上,它可能与目前存在于社会科学中的数据总量相匹敌。”

相关的

A team led by Gary King found that the volume of discussion as well as the balance of opinion about a major policy topic are significantly impacted if just three outlets write pieces on it.

小媒体,大回报

研究表明,这样的渠道可以对全国对话产生广泛的影响

King在4月份的一篇工作论文中对支撑社会科学一号的框架进行了概述,该框架由两部分组成。

他说,首先是一个由全球知名学者组成的委员会,他们将与Facebook官员合作,确定潜在的数据集,这些数据集将通过提交研究建议和同行评审的过程提供给研究人员。一旦研究想法获得批准,研究人员将获得数据以及7个慈善基金会提供的资助,以支持他们的工作。这些基金会跨越了意识形态的范围,但它们的资金将被汇集起来,所有决定都将由学术界做出,因此没有一个观点能够占据主导地位。外部研究人员将拥有完全的学术自由,而无需授予Facebook的出版前审批权。

“过程的关键部分是欧盟委员会,作为一个受信任的第三方,可以查看建议和决定,一些不适当资助——即使科学——原因并不公开,是否涉及诉讼等尚未公开,”国王继续说。“如果Facebook违背了这一协议,不提供《社会科学一号》要求的数据,我们有义务向公众报告。所以这个系统对公众,对公司,对社会科学界来说都是激励相容的。我们认为这本质上是政治科学的成果,我们提出了一部适用于所有政党的宪法。”

马修·鲍姆马文卡尔布全球通信教授哈佛肯尼迪学院和社会科学委员会的成员,说:“这个委员会有可能在社会科学研究打开一个新的篇章,在知识的整体收购,该组织拥有至关重要的人和机构的信息,像社会媒体平台,专业研究人员将能够更有效地合作,解决我们社会面临的一些最困难的问题。”

“社会科学一号”正在哈佛大学的定量社会科学研究所(Institute for Quantitative Social Science)进行孵化。多年来,该研究所已多次开展这类活动。它定期孵化和剥离非盈利研究组织和营利性公司,以及目前设在该研究所、哈佛大学其他地方和其他机构的中心、项目和研究项目。

尽管研究人员能够访问Facebook的数据存储是一个令人兴奋的前景,但近几个月来,Facebook数据的使用(和滥用)已经成为头条新闻,而金和同事们已经开发了一些程序来避免这种情况。他们在程序中加入了安全措施,第一个很简单:为了确保对数据的访问是有限的,学者们实际上不会得到数据,而是被允许访问存储数据的服务器。

金说:“不会像以前那样向学术机构提供数据。”“相反,我们将让学者们能够访问数据,这样个人隐私就会一直得到保护。”

此外,该组织计划利用一个数学概念,即“差异隐私”,以确保提供的数据不能追溯到个人用户。

“我们有一些世界上领先的专家在哈佛研究这个概念,其中包括哈佛大学约翰·a·保尔森工程学院计算机科学戈登·麦凯教授辛西娅·德沃克他们都是这个委员会的成员。”“我们的想法是,你可以拿一个数据集,添加特殊类型的随机噪音,让它不可能识别任何一个人,但当你把它聚合起来时,它不会改变你想要检查的整体模式。”

但金说,到目前为止,最强有力的安全措施与允许学者使用数据的系统有关。“当学者访问数据时,他们输入的每一个字符都将被记录和审计,”他说。“如果他们输入字母K,我们就知道他们输入了那封信。所以他们不可能复制或滥用数据。这意味着我们正在从一种个人责任模式转变为一种集体责任模式,在这种模式下,没有人能够在不被所有人知道并能够阻止的情况下侵犯隐私。”

金说,“社会科学一号”的最终目标是为Facebook——以及其他公司——开发方法,使其庞大的数据存储可供研究人员使用,以期找到继续困扰人类的社会问题的解决方案。

“Facebook拥有关于20亿人的高信息量数据,”King说。“这是一种不可思议的特权,随之而来的是相当大的责任。Facebook也利用这些信息和力量帮助公众,为社会公益做出贡献,这才有意义。”

金说,这不是没有先例的。

在过去的几十年里,几家大公司建立了大型的研究部门——也许最著名的是AT&T的贝尔实验室和微软的微软研究院——这使得科学家可以自由地探索从信息论到激光和晶体管的发展等各种主题。

随着今天第一批数据集的发布,King和他的同事们希望能延续这一传统,但是是以一种为社会科学相关企业设计的方式。

金说:“这只是我们的第一个数据集。在这之后,我们还有很多其他的数据集。我们有7个慷慨的基金会为我们提供资金,所以我们希望开始让研究人员迅速行动起来。”“我们也希望将这种合作扩展到Facebook之外,并与其他公司合作。

“我们使用这些数据集所取得的发现不会影响这些公司的业务,但它们可以帮助解决一些影响人类社会的挑战,”金说。“如果有办法做到这一点,谁不想为这个使命做出贡献呢?”