‘CoronaCheck’ website combats spread of misinformation

康奈尔大学的研究人员开发了一个自动化系统，利用机器学习、数据分析和人类反馈来自动验证关于新型冠状病毒的统计数据。

“CoronaCheck”是根据计算机科学助理教授伊曼努尔•特朗默(Immanuel Trummer)正在进行的研究开发的，于今年3月在国际上推出，已经被使用了9600多次。该数据库目前有英语、法语和意大利语版本，它根据世界卫生组织和美国疾病控制与预防中心等可靠的信息来源，对COVID-19的传播情况进行了核实。

特朗默说:“网上关于冠状病毒的错误信息太多了，这真是令人难以置信。”“这些错误信息中的一些是无害的，但是其他的——比如‘吃银可以治愈冠状病毒’——可能是危险的。”

CoronaCheck系统是特朗普的团队，包括博士生乔治斯·卡拉吉亚尼斯和萨汉·乔，以及保罗·帕波提在法国比奥的工程学院Eurecom的团队合作开发的。

由于互联网上不良信息的绝对数量，以及产生和传播更多错误信息的速度，人类不可能仅通过手工的事实核查来解决问题。特朗默说，即便是通常试图将新的索赔要求与现有的事实核查联系起来的普通自动化方法，也不可能在足够大的范围内进行，以应对错误信息的范围。

“我们已经尝试自动化整个过程，从原始数据到我们想要验证的文本，”Trummer说。

CoronaCheck采用了Trummer与Eurecom合作为巴黎的非政府组织国际能源署(International Energy Agency)开发的“审查者”(详细审查者)系统，以支持人工事实核查人员将文本摘要翻译成计算机能够理解和求解的方程式。为了做到这一点，审查者使用了机器学习和自然语言处理——人工智能的一个分支，旨在破译人类语言——以及大型数据集，帮助系统弄清楚如何处理每一个新的索赔，以及来自人类用户的反馈。

“网上关于冠状病毒的错误信息太多了——实际上，这相当令人难以置信。”

伊曼努尔Trummer

“计算机很难理解自然语言，”他说。“我们不能直接让电脑去检查句子中的一些说法是否正确。所以我们必须把我们的语言转换成计算机能理解的查询语言。”

例如，如果有人输入法国的冠状病毒病例数高于意大利，系统就会使用一种消除过程来缩小可能的方程式来表示文本。它利用其数据集创建一个数学表达式，该表达式可以将声明与事实进行比较。

然后，根据经验，该系统根据约翰·霍普金斯大学每天收集的可靠公共数据，确定验证这一说法的最佳来源。随着时间的推移，系统的机器学习模型也可以改进，学会根据用户反馈识别新的索赔类型。

特朗默说:“市场上存在大量的错误信息，人们关注的主张也相当多样化。”“对于任何给定的索赔，都有大量可能的查询表达式，我们的目标是找到正确的查询表达式。”

数据库接口建立在Trummer的相关工作之上，包括AggChecker，这是第一个通过查询关系数据库来自动验证数据集文本摘要的工具。AggChecker是在2019年的计算机械协会数据管理特别兴趣小组年会上提出的。

他的团队还与谷歌NYC合作，开发了一个关于常见事实错误的“反知识库”。CoronaCheck背后的研究部分是由谷歌教员研究奖资助的。

康奈尔纪事学院
312 College Ave
Ithaca, NY 14850
607-255-4206
[email protected]

新闻旨在传播有益信息，英文原版地址：http://news.cornell.edu/stories/2020/04/coronacheck-website-combats-spread-misinformation