分类
芝加哥大学新闻

芝加哥大学的研究人员使用机器学习来研究跨语言的含义

A stack of German, French, Spanish and English language books sits on a laptop keyboard next to a notebook and pen. Written on the notebook are translations for "love," "mother," "father," "family" and "home" in several languages.

不同语言的意义如何对齐表明,翻译和跨文化交流可能具有挑战性,但研究人员尚不清楚这种对齐的特征是什么,以及哪些因素可能会影响它。

然而,最近发表在PNAS上的一项研究使用机器学习发现,在意义领域内,跨语言的含义是相似的,但它们在不同领域是不同的。该研究还表明,具体含义(例如,手、树、锅)在不同语言(民主、真理、幸福)中的差异小于抽象含义,但距离更近的语言往往具有更相似的含义。

James Evans wearing a suit and bowtie with his arms crossed.

该研究小组由社会学系的詹姆斯·埃文斯教授和莫莉·刘易斯(Molly Lewis)领导,莫莉·刘易斯(Molly Lewis)在芝加哥大学从事博士后研究。他们的研究使用大规模数据来考虑核心语言人类学问题。埃文斯指出了萨皮尔-沃尔夫假说,该假说表明,语言的结构会影响说话者的世界观和认知。这意味着语言引导思维。从那以后,研究一直反对这一假设的强烈版本,埃文斯的团队使用机器学习来研究所有领域的许多语言:它们是否以特定的方式排列?研究人员如何描述其含义的差异?

研究人员使用了两个大型数据源:维基百科文章,涵盖不同语言的相同主题,以及英语作为外语考试(TOEFL)论文,其中第一语言不是英语的人用英语撰写主题。他们发现的是意义相对主义的有力证据,证明了一个人所说的特定语言如何影响他们组装想法和思考现实的方式。

“我们表明,具体物体在不同语言中更加保守,但它们仍然有所不同,”埃文斯说。“所以,如果你在文化空间上更远,或者你如何构建亲属关系,或者你对环境和气候的体验,或者物理距离;每一种都有助于你如何跨单词构建含义。

埃文斯解释说,这项研究展示了一种更有力的思考语言之间差异的方式:不是在单词的抽象性和具体性方面,而是在它们之间相互之间的局部和全球联系。

“医疗保健等领域——医生、护士、疾病;或宗教——牧师、萨满、祝福、诅咒——当你使用其中一个词时,你也会使用其他词,“埃文斯说。“这些领域往往在各种语言中高度保守。但不同的是这些域之间的距离。

他用普通话举了一个例子。在这种语言中,讨论家庭通常包括使用物理空间隐喻,例如山脉和海洋。然而,在另一种语言中,他们使用与健康和治疗相关的隐喻。

“在领域内,语言基本上是相同的;但跨领域,这些差异创造了越来越少的隐喻、措辞的转折、叙事的转变,“他说。“这些认知上的接近性——通过你的母语获得——极大地塑造了你写作和阅读叙述的方式,以及解释在多大程度上会让你感到熟悉和令人信服,或者让你感到惊讶和怀疑。

埃文斯说,如果我们能够学会预测这些关联,我们就可以更好地调整和改进翻译。例如,与其谷歌提供可能失去隐喻含义的逐字翻译,不如将其塑造成一种在读者的母语中有意义的联想。它也可以塑造第二语言的教学方式;我们可以像教授句法和语法一样教授隐喻和联想。它还可以帮助制定影响讲各种语言的人的法令和法律。

“语言中蕴含着可衡量的文化,”埃文斯说。“它深刻地塑造了人们体验世界、构建隐喻和交流思想的方式。”

这个故事的一个版本最初出现在芝加哥大学社会学系的网站上。

新闻旨在传播有益信息,英文版原文来自https://news.uchicago.edu/story/uchicago-researchers-use-machine-learning-examine-meanings-across-languages