分类
麻省理工学院新闻

自动化系统可以改写维基百科文章中过时的句子

文本生成工具定位和替换句子中的特定信息,同时保留类人语法和样式。

麻省理工学院(MIT)研究人员创建的一个系统可以用来自动更新维基百科文章中不一致的事实,从而减少人工编辑的时间和精力。

维基百科包含数百万篇文章,这些文章需要经常修改以反映新的信息。这可能涉及到文章扩展、主要重写或更多的常规修改,如更新数字、日期、名称和位置。目前,全球各地的人们自愿花时间来做这些编辑。

在AAAI人工智能会议上发表的一篇论文中,研究人员描述了一个文本生成系统,该系统可以精确定位并替换相关维基百科句子中的特定信息,同时保持语言与人类的书写和编辑方式类似。

这个想法是,人们可以在一个界面中输入一个包含最新信息的非结构化句子,而不需要担心格式或语法。然后,该系统会搜索维基百科,找到合适的页面和过时的句子,并以类似人类的方式重写它。研究人员说,将来有可能建立一个完全自动化的系统,识别并使用来自网络上的最新信息,从而在相应的维基百科文章中生成反映最新信息的重写句子。

“维基百科的文章需要不断更新。计算机科学与人工智能实验室(CSAIL)的博士生达什•沙阿(Darsh Shah)是该研究的主要作者之一。这样一来,你就只需要几个人来修改维基百科的每一篇文章,而不是几百个人来修改,因为这个模型是在帮助你修改,或者是自动修改。这大大提高了效率。”

还有许多其他机器人可以自动编辑维基百科。Shah说,通常情况下,这些工作是为了减少破坏行为,或者将一些定义狭窄的信息放入预定义的模板中。他说,研究人员的模型解决了一个更难的人工智能问题:给定一条新的非结构化信息,该模型就会像人类一样自动修改句子。他表示:“其它(机器人)任务更多地基于规则,而这一任务需要对两句话中相互矛盾的部分进行推理,并生成连贯的文本。”

该系统也可以用于其他文本生成应用程序,共同的主要作者和CSAIL研究生塔尔舒斯特尔说。在他们的论文中,研究人员还使用它在一个受欢迎的事实核查数据集中自动合成句子,这有助于减少偏见,而无需手动收集额外的数据。Schuster说:“通过这种方式,自动事实验证模型的性能得到了提高,这些模型在数据集上训练,用于假新闻的检测。”

Shah和Schuster与他们的学术顾问Regina Barzilay一起完成了这篇论文,Regina Barzilay是Delta电子公司电气工程和计算机科学的教授,同时也是CSAIL的教授。

中性、掩蔽和融合

在这个系统的背后,是一种相当巧妙的文本生成技术,它能识别出两个句子之间相互矛盾的信息,然后将它们融合在一起。它从维基百科的一篇文章中选取一个“过时的”句子作为输入,再加上一个单独的“声明”句子,其中包含了更新的和相互矛盾的信息。该系统必须根据声明中的信息,自动删除和保留过时句子中的特定单词,以更新事实,但保持文体和语法。这对于人类来说是一项简单的任务,但对于机器学习来说却是一项新奇的任务。

例如,假设这句话需要更新(用粗体):“a基金认为,在运营活跃的公司持有的42股少数股权中,有28股对集团具有特殊意义。带有最新信息的索赔语句可能是:“基金A认为43个少数股权中有23个是重要的。”该系统将根据该声明,在维基百科上找到与“A基金”相关的文本。然后,它会自动删除过时的数字(28和42),并用新数字(23和43)替换它们,同时保持句子完全相同,语法正确。(在他们的工作中,研究人员在一个特定的维基百科语句数据集上运行该系统,而不是在维基百科的所有页面上。)

该系统是在一个包含成对句子的流行数据集上训练的,其中一个句子是声明,另一个是相关的Wikipedia句子。每对句子都有以下三种标记:“同意”,意思是这些句子包含匹配的事实信息;“不同意”,意思是他们包含相互矛盾的信息;或者“中性”,这两个标签都没有足够的信息。系统必须通过修改过时的句子使所有不同意的对同意。这需要使用两个单独的模型来生成所需的输出。

第一个模型是事实核查分类器——预先训练将每个句子对标记为“同意”、“不同意”或“中立”——重点是不同意的句子对。与分类器一起运行的是一个定制的“中立性屏蔽”模块,该模块识别过时句子中的哪些词与声明相矛盾。该模块去掉了“最大化中立性”所需的最小字数——这意味着这对词可以被标记为中性。这就是起点:虽然句子不一致,但它们不再包含明显矛盾的信息。该模块在过时的句子上创建一个二进制“掩码”,其中0放在最可能需要删除的单词上,而1放在保留的单词上。

在掩蔽之后,一个新的双编码器-解码器框架被用来产生最后的输出句子。该模型学习索赔和过时句子的压缩表示。这两个编码器和解码器协同工作,将不同的单词从声明中融合起来,将它们滑进过时句子中被删除的单词(包含0的单词)所留下的空白位置。

在一项测试中,该模型的得分高于所有传统方法,它使用了一种被称为“纱丽”的技术来衡量机器删除、添加和保留单词的能力,与人类修改句子的能力相比。他们使用了一个数据集,其中包含手动编辑的Wikipedia语句,这是该模型以前从未见过的。与几种传统的文本生成方法相比,新模型在事实更新方面更准确,输出结果更接近于人类的书写。在另一项测试中,众包人类根据输出的句子包含事实更新和符合人类语法的程度,给模型打分(1到5分)。该模型的事实更新平均得分为4分,匹配语法平均得分为3.85分。

消除偏见

该研究还表明,在训练“假新闻”探测器时,该系统可以用来增加数据集,以消除偏见。“假新闻”是一种包含虚假信息的宣传形式,目的是误导读者,从而产生网站浏览量或引导公众舆论。这些检测器中的一些在同意-不同意句子对的数据集上进行训练,以“学习”通过匹配给定的证据来验证一个声明。

在这些对中,声明要么将某些信息与来自Wikipedia的支持“证据”句匹配(同意),要么将被人类修改以包含与证据句相矛盾的信息(不同意)。这些模型经过训练,可以用反驳证据将指控标记为“虚假”,从而帮助识别假新闻。

不幸的是,这样的数据集目前带有无意识的偏见,沙阿说:“在培训期间,模型使用一些人类书面声明的语言作为‘赠送’短语来标记它们为错误,而不太依赖相应的证据句。这降低了模型在评估真实例子时的准确性,因为它不执行事实核查。”

研究人员在他们的维基百科项目中使用了相同的删除和融合技术来平衡数据集中不一致和一致的数据对,并帮助减轻偏见。对于一些“不同意”对,他们使用修改后的句子的错误信息来重新生成一个虚假的支持句子的“证据”。一些泄露的短语同时存在于“同意”和“不同意”两句话中,这迫使模型分析更多的特征。利用他们的扩充数据集,研究人员将一个流行的假新闻检测器的错误率降低了13%。

沙阿说:“如果你对数据集有偏见,你欺骗你的模型只看不同意对中的一句话来做出预测,你的模型将无法在现实世界中生存。”“我们让模型看所有同意-不同意对的两句话。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212