分类
杜克大学新闻

当数据科学家研究了三个世纪的《鲁滨逊漂流记》后,会发生什么?

Reading 1,400-plus editions of “Robinson Crusoe” in one summer is impossible. So one team of students tried to train computers to do it for them.

在一个夏天里读完1400多个版本的《鲁宾逊漂流记》是不可能的。因此,一组学生试图训练电脑为他们做这件事。

自从丹尼尔·笛福的沉船故事《鲁滨逊漂流记》在近300年前首次出版以来,已经有上千个版本和衍生版本以数百种语言出版。

北卡罗莱纳大学教堂山分校(University of North Carolina at Chapel Hill)英语与比较文学专业的博士生格兰特·格拉斯(Grant Glass)领导的一个研究小组想知道,在经历了各种版本、模仿和翻译之后,这个故事发生了怎样的变化,并想看看哪些部分经得起时间的考验。

以每天一篇的速度通读这些文章需要数年的时间。相反,研究人员正在训练电脑为他们做这件事。

今年夏天,格拉斯的“数据+暑期研究项目”(Data+ summer research program)团队使用计算机算法和机器学习技术,对1482本《鲁滨逊漂流记》的全文进行了筛选。

“很多时候,我们认为一本书是一成不变的,”格拉斯说。“但像这样的项目会让你觉得很混乱。有很多不同之处。”

“当你拿起一本书的时候,知道它是什么副本是很重要的,因为这会影响你对故事的看法,”格拉斯说。

杜克大学数学和计算机科学双学位学生、本科团队成员奥吉尔巴茨亚(Orgil Batzaya)说,事实证明,仅仅将文本转换成计算机能够处理的形式就已经成功了一半。

这些书已经被扫描并发布到网上,因此学生们使用软件从互联网上下载扫描结果,这个过程被称为“抓取”。但事实证明,将扫描过的旧印刷书籍(其中一些有污迹、斑点或磨损的字体)转换成机器可读的格式要比他们想象的复杂得多。

该软件难以破解这些奇怪的拼写(“deliver’d”、“wish’d”、“persw”、“shore”和“shoar”)、不同版本之间不同的字体,以及其他一些怪癖。

18世纪字体特有的特殊字符,比如字母“s”奇怪的f形版本,甚至让人类用口齿不清的语言阅读“diftance”和“poffible”。

他们的第一次尝试提出了官样文章。“由此产生的光学字符识别完全无法使用,”团队成员、杜克大学大四学生加布里埃尔·古迪斯(Gabriel Guedes)说。

在8月份的Data+ poster会议上,Guedes、Batzaya和历史与计算机科学双学位学生Lucian Li展示了他们的初步成果:一组彩色的散点图、地图、流程图和线图。

Guedes指向网络图上的点群。“在这里,红色的版本来自美国,蓝色的版本来自英国”古埃德说。“网络图识别出所有这些版本之间的相似性,并将它们聚合在一起。”

一旦他们把扫描过的页面转换成机器可读的文本,研究小组就把它们输入一个机器学习算法,该算法可以测量文档之间的相似性。

该算法将文本块
2的句子、段落、甚至整部小说的文本块
2转换成高维向量。

Guedes说,为每本书创建这种数字表示,使得对它们进行数学运算成为可能。他们将每本书的向量相加,求出它们的和,计算平均值,然后查看哪个版本最接近“平均”版本。它是1875年在格拉斯哥出版的《鲁滨逊漂流记》的一个版本。

他们还分析了特定情节点在决定一个特定版本与“普通”版本的亲密程度时的重要性:当克鲁索在沙滩上发现一个脚印,并意识到自己并不孤单时,他会怎么想?还是克鲁索和星期五离开小岛后,在比利牛斯山与饥饿的狼搏斗的时候?

对于那些不习惯看到300年的出版被压缩成条形图的人来说,这个团队的结果可能有些刺耳。但“数字人文”学者们表示,通过使用电脑一次比较数千本书,有可能追踪出人类钻研单个书籍所无法追踪的大规模模式和趋势。

“这真的是只有电脑才能做到的事情,”Guedes指着一张延时地图说,这张地图显示了克鲁索的故事是如何在全球范围内传播的,它是由15000个版本的出版地点和日期数据构成的。

“这是一种‘远距离阅读’的形式,”Guedes说。“你用这些海量的信息来帮助得出关于出版历史、思想运动和知识的结论。”

这个项目是与Charlotte Sussman(英语)和Astrid Giugni(英语,ISS)合作组织的。查看team’s结果,请访问https://orgilbatzaya.github.io/pirating-texts-site/

Data+是由Bass Connections赞助的,Bass Connections是杜克大学(Duke)、社会科学研究所(Social Science Research Institute)、数学与统计科学系(department of Mathematics and Statistical Science)和MEDx的信息倡议组织。这个项目团队也得到了杜克大学信息技术办公室的支持。

其他杜克大学的赞助商包括DTECH、杜克健康、桑福德公共政策学院、尼古拉斯环境、发展和校友事务学院、能源倡议、富兰克林人文学院、杜克福吉大学、杜克临床研究所、信息技术办公室和教务长办公室,以及电气和能源系计算机工程,计算机科学,生物医学工程,生物统计学&生物信息学和生物。

政府资金来自国家科学基金会。

外部资金来自联想(Lenovo)、大众动力(Power for All)和赛仕(SAS)。

达勒姆警察和郡长部门、格伦小学家长教师联谊会和达勒姆市的社区伙伴关系、数据和有趣的问题。

Paschalia Nsato和Julian Santos的视频;罗宾·史密斯

新闻旨在传播有益信息,英文原版地址:https://researchblog.duke.edu/2018/09/06/robinson-crusoe/