分类
加州大学圣芭芭拉分校新闻

建模错误信息

我们生活在一个信息泛滥的时代——源源不断的状态更新、表情包、转发、信息图表、引用和标签每天都在我们的社交媒体上滚动,目的是表达观点、团结一致、提供信息、改变主意或引发争议。

问题是,普通的在线浏览器/社交媒体用户没有时间或资金来调查他们提要上显示的所有内容的合法性或来源。正是这种漏洞,不那么严谨的内容生成器利用它来传播错误信息,其结果可能是小小的尴尬,也可能是彻底改变生活或潜在的致命后果。

对于加州大学圣巴巴拉分校的计算机科学家威廉·王来说,这片混乱的沼泽是探索的沃土。王认为,深度学习技术,当运用到文本和超链接网络上的在线帖子和新闻文章,可以帮助我们进行一些批判性思维的负重。这个概念是他三年项目“Dynamo:动态多通道错误信息建模”的核心。

”问题是,给定一个帖子,你怎么能了解这是专门误导或者如果这是一个真正的,”王说,“鉴于网络的结构,你能识别错误信息的传播,以及它是如何将不同的标准或非标准的文章相比?”

这是一项艰巨的任务,尤其是在社交媒体领域,它已经在合法、成熟的新闻网站和有问题的网站之间建立了一个公平的竞争环境。这些网站在用户能够退后一步质疑自己的信息来源之前,会尽力让自己看起来更官方,或者迎合用户的情绪。

然而,由于自然语言处理——王的专长——这些帖子和文章中的文字可以用来揭示创作者和传播者的信息,比如他们的从属关系、意识形态和发帖动机,以及他们的目标受众可能是谁。该算法会搜索Twitter和Reddit等平台上匿名用户发布的数百万篇新闻文章,并检查这些文章的标题、内容和链接。其目的不仅是了解它们背后的实体,而且是了解它们在整个网络中传播的模式。

王说:“我们很多人认为网站是理所当然的,随意转发或转发错误信息,这就是传播、级联和病毒式传播的方式。”“我们提出的一些最重要的问题是:这些模式是什么?动机是什么?”

为了找到答案,他和他的团队提出了一种学习机制,除了内容本身是对还是错之外,还能找出某些故事被转发或转发的原因。王说,在这个过程中,他们可以找出谁参与了错误信息的传播,以及在这个过程中可能出现的模式。图像也将成为数据集的一部分,他补充说。

后来,研究人员计划将他们工作的其他方面与虚假信息整合起来,比如“点击诱饵”(clickbait),它使用吸引人的、往往是耸人听闻的标题来吸引读者点击一个链接,这个链接最多只能把他们发送到一个不可靠的网站,或者最坏的情况是窃取他们的信息。

王说:“‘点击诱饵’主要是一些低质量的文章,它们确实含有大量的错误信息和虚假信息,因为它们不得不夸大事实。”该团队与计算机科学博士生吴佳薇(音译)一起,开发了一种名为“强化协同训练”的方法,该方法使用一种高效的系统,对数百篇文章进行标记,然后训练一个机器学习分类器,在一个庞大的百万故事数据集中标记它认为可能是“点击诱饵”的内容。

“然后我们使用这些新标记的实例并重新训练分类器,”Wang说。“这个迭代过程允许我们随着时间的推移收集更多的标签数据,”他补充说,这提高了工具的准确性。

利用人工智能来理解和发现我们每天发送给对方的文本浪潮中的模式,将让我们了解我们是如何有意或无意地传播错误信息的。

“这就是自然语言处理和机器学习的美妙之处,”王说。“我们有大量不同格式的数据,问题是:如何将非结构化数据转化为结构化知识?”这是深度学习和数据科学的目标之一。”

新闻旨在传播有益信息,英文原版地址:https://www.news.ucsb.edu/2019/019565/modeling-misinformation