分类
普林斯顿大学新闻

毕业论文聚焦:费尔南多·阿维莱斯-加西亚(Fernando Avilés-García)使用人工智能分析但丁的《神曲》。

Fernando with his advisers smiling

普林斯顿大学的最后一年,费尔南多·阿维莱斯-加西亚(Fernando Avilés-García)以一种创新的方法处理了700年前的文学:构建一种人工智能工具来分析但丁·阿利吉耶里(Dante Alighieri)的《神曲》的语言。

“考虑到文本的分量,现代语言模型对喜剧的服务严重不足,”拥有法语和意大利语系证书的计算机科学专业学生阿维莱斯-加西亚说。“这个项目让我将我对通过代码解决难题的热爱与我对意大利语的热情重叠在一起。”

“这是我多年来在普林斯顿读过的最原始的毕业论文之一——我读过一些很棒的毕业论文,”自1988年以来一直在普林斯顿任教的法语和意大利语教授Gaetana Marrone-Puglia说。“费尔南多将计算机模型带到了通常掌握在中世纪主义者手中的文本中。这是科学与人文的完美结合。

最终成果“占卜语言:通过自然语言处理(NLP)发掘中世纪意大利语”,帮助他以部门最高荣誉毕业,并获得了首卢西奥·卡普托高级论文奖,“以表彰其关于意大利文学、语言、文化、经济、历史、政治或社会的杰出论文”。

“他创造了一种工具,我认为它将对意大利文学界有益,并将激发未来的研究,”阿维莱斯-加西亚的论文导师克里斯蒂安·费尔鲍姆(Christiane Fellbaum)。她是计算机科学语言学人文科学委员会教授级别的讲师,也是普林斯顿大学语言学博士毕业生。

克服冒名顶替综合症

在普林斯顿大学的第一门编程课程中,阿维莱斯-加西亚发现自己喜欢征服问题的冲动。“我真的迷上了那种’我在做东西!’的感觉,”他说。

到大二时,他准备宣布计算机科学为他的专业。“但我的一部分是害怕的,因为我认识的所有计算机科学孩子在高中时都做了很多编码,”他说。“我的一部分在想,’我是不是不适合这个?’”

有一次,当 Avilés-García 协助一门入门课程时,一位一年级学生问他如何应用一种他从未听说过的数据结构。

但后来他想,“如果我足够好,可以教这些孩子,或者至少调试他们的代码,我就可以坚持下去,”他回忆道。因此,他宣布了专业,并遵循他对语言的热爱,进入了基于人工智能的翻译领域,最终创建了一个可以一次翻译整本书的应用程序

普林斯顿大学数字人文中心(Center for Digital Humanities)执行主任纳塔利娅·埃尔莫拉耶夫(Natalia Ermolaev说,许多本科生自然而然地在人文学科和人工智能之间架起了桥梁。“在普林斯顿,这种情况经常发生,因为我们有很多计算机科学专业的学生,他们暗中喜欢古典文学、意大利文学或中世纪建筑,”她说。

“所以他们来找我们说,’请给我一个文本来处理,或者一些我可以应用我的计算知识的问题。然后,他们必须创建一个数据集,或者处理一种不容易插入模型的语言,这让他们感到震惊。我们看到灯泡熄灭了,因为他们重新理解了模型的局限性,以及互联网上有多少是以英语为重点的。于是就有了创造力。您是否调整模型或增强数据?在这个过程中,你会学到很多关于材料和语言的知识,并从中学到很多关于文化的知识。

Fernando wearing his 2024 sweater

费尔南多·阿维莱斯-加西亚(Fernando Avíles-García)因“关于意大利文学,语言,文化,经济,历史,政治或社会的杰出论文”而获得首届卢西奥·卡普托高级论文奖。他从小就懂英语和西班牙语,在西西里岛的夏天,他爱上了意大利语。

从墨西哥城到中世纪的意大利

阿维莱斯-加西亚出生于墨西哥城,在新泽西州巴斯金岭长大,在英语和西班牙语双语中长大,在西西里岛的夏天,他爱上了意大利语。

因此,当他寻找一个可以用他的人工智能语言建模技能解决的主题时,他的法国和意大利顾问西蒙娜·马尔凯西(Simone Marchesi引导他走向任何语言中最伟大的作品之一:但丁的《神曲》,这是一部从地狱到天堂的三卷本旅程,写于1308年至1321年之间。

只有一个问题:但丁用一种古老的托斯卡纳方言写作,所以即使是现代意大利语模型也很难处理文本,而受过英语训练的模型则更糟。

“但丁是意大利语之父,但他的文本不是标准的意大利语,”法语和意大利语教授、2002年普林斯顿大学比较文学博士毕业生马尔凯西说。Avilés-García 花了几个月的努力,并与比萨大学的程序员合作,训练他的模型来解析中世纪的意大利语。

“一旦你有了它,你就可以运行有趣、有趣和有前途的查询,就像费尔南多一直在做的那样,”Marchesi说。

闪耀新光

阿维莱斯-加西亚开始量化喜剧中经常一起出现的单词。

当他对名词“爱”(amore)进行查询时,他发现了金子。他猜出了一些伴随它的词——比阿特丽斯(但丁的缪斯女神)、心、动词爱 (amare)、亲情、甜蜜、美丽、美丽、女人、妻子、欲望、肉体——然后运行模型。

令他惊讶的是,他的猜测中几乎没有一个经常出现在 爱的15个单词内,但许多与光明(闪耀、星星、光线)和黑暗(夜晚)有关的词语却出现了。当他回到文本时,这种意想不到的联系开启了新的见解。“但丁将地狱描述为一个没有星星的地方,”他说。“然后我开始看到,地狱的定义是缺少这个更大的东西:爱。

普林斯顿大学跨学科人工智能研究的优势之一是在许多学科领域拥有深厚的专业知识。在这种情况下,阿维莱斯求助于世界领先的但丁专家之一马尔凯西,询问星星与爱情和地狱之间的联系是学者们几个世纪以来已经认识到的陈词滥调,还是一个全新的概念,或者介于两者之间。

“我想说,他发现的是真实的,而不是不言而喻的,”Marchesi说。他补充说,大多数学者都关注恒星作为导航工具的作用,因此地狱是一个令人迷失方向的地方。“费尔南多已经证明,在他们的缺席下,一个更大的概念星座处于危险之中。

Marchesi说,他对这种新语言模型的前景很感兴趣。“当你接受学术工作的培训时,你就会接受回答老问题的培训,”他说。“真正令人兴奋的部分是与可以提出 问题的人相遇。”

他期待在自己的研究中使用这种人工智能模型及其未来的迭代。“曾经是普林斯顿人的人永远是普林斯顿人,”他说。“无论费尔南多在普林斯顿大学毕业后走到哪里,我都可以联系他,提出问题并得到友好的答案。它很漂亮。

新闻旨在传播有益信息,英文版原文来自https://www.princeton.edu/news/2024/06/17/senior-thesis-spotlight-perfect-marriage-science-and-humanities