分类
芝加哥大学新闻

How AI could help translate the written language of ancient civilizations

25个世纪以前,波斯的阿契美尼德帝国的“文书”被记录在陶片上——1933年,芝加哥大学东方研究所的考古学家在今天的伊朗发现了数万张陶片。几十年来,研究人员煞费苦心地用手研究和翻译这些古代文献,但这种人工解密的过程非常困难、缓慢,而且容易出错。

从20世纪90年代开始,科学家们就开始利用电脑来帮助他们,但由于平板电脑的三维特性和楔形文字的复杂性,电脑的作用有限。但是,芝加哥大学的一项技术突破可能最终会使这些揭示阿契美尼德历史、社会和语言等丰富信息的平板电脑的自动抄写成为可能,从而为考古学家进行更高级的分析腾出时间。

这就是DeepScribe背后的动机,它是OI和芝加哥大学计算机科学系的研究人员之间的合作。训练集的6000多个注释图像从波斯波利斯强化档案,数据和Computing-funded中心项目将建立一个模型,可以集合中的“读”as-yet-unanalyzed平板电脑,和一个潜在的工具,考古学家可以适应其他研究古代写作。

亚述学副教授苏珊娜•保卢斯(Susanne Paulus)表示:“如果我们能够开发出一种灵活且可扩展的工具,能够传播到不同的脚本和时间段,那将是一场真正的改变。”

这是一个很好的机器学习问题

这次合作始于保罗斯、桑德拉·施罗恩和米勒·普罗塞在纽鲍尔学院举办的数字人文活动上与计算机科学系助理教授桑杰·克里希南的会面。Schloen和普罗塞负责OCHRE,这是一个由OI支持的数据库管理平台,用于从考古发掘和其他形式的研究中获取和组织数据。Krishnan将深度学习和人工智能技术应用于数据分析,包括视频和其他复杂的数据类型。对双方来说,这种重叠是显而易见的。

“从计算机视觉的角度来看,这非常有趣,因为我们面临着同样的挑战。计算机视觉在过去的五年中有了显著的进步;十年前,这还只是手笔,我们不会走到这一步,”Krishnan说。“这是一个很好的机器学习问题,因为准确性是客观的,我们有一个标记好的训练集,我们很好地理解了脚本,这对我们很有帮助。这不是一个完全未知的问题。”

这一训练集要归功于OI和芝加哥大学的研究人员80多年来的密切研究,以及最近推动的将平板电脑收藏的高分辨率图像数字化的努力。利用这些资料,研究人员创建了一部刻在石板上的埃兰语词典,学习如何破译楔形文字的学生建立了一个包含10万多个“热点”(即识别出的单个符号)的数据库。

利用来自芝加哥研究计算中心的资源,Krishnan使用这个带注释的数据集来训练一个机器学习模型,类似于其他计算机视觉项目中使用的模型。当在不包含在训练集的平板上测试时,该模型能够成功破译楔形文字符号,准确率约为80%。目前正在进行的研究将试图推动这一数字进一步上升,同时研究是什么原因导致了剩下的20%。


大量的数字工作

但即使是80%的准确率也能立即为转录工作提供帮助。保卢斯说,许多平板电脑都描述了基本的商业交易,类似于“一盒沃尔玛收据”。而一个不能下定决心的系统可能仍然有用。

“如果计算机可以翻译或识别高度重复的部分,让专家填写困难的地名或动词或需要一些解释的东西,完成了很多工作,”保卢斯说,平板电脑收集馆长OI。“如果电脑不能做出一个明确的决定,如果它能给出概率或前四名,那么专家就有了一个起点。”那太棒了。”

更有野心的是,这个团队把DeepScribe想象成一个通用的破译工具,他们可以和其他考古学家分享。也许这个模型可以被重新训练成埃拉米特以外的其他楔形文字,或者可以对残缺不全的写字板上缺失的文字提出有根据的建议。机器学习模型还可能有助于确定药片和其他来历不明的人工制品的来源,这是目前通过化学测试解决的一个任务。

类似的由美国疾病控制与预防中心资助的项目正在使用计算机视觉方法进行应用,例如研究海洋双壳类的生物多样性和从艺术作品的内容中分离出风格。随着数字考古越来越多地与先进的计算方法相交叉,这次合作也希望激发OI和计算机科学系之间未来的合作关系。

克里希南说:“我认为,这有助于使原本应该在晚餐时结束的对话变成真正的合作。”“这让我们不只是说说而已。”

-改编自CDAC网站上首次出现的一个故事。

新闻旨在传播有益信息,英文原版地址:https://news.uchicago.edu/story/how-ai-could-help-translate-written-language-ancient-civilizations