分类
马里兰大学帕克分校新闻

可靠的 ER 翻译可能是人类和 AI 的工作

stethoscope with overlay of different languages

在研究从急诊室使用的英译机翻译系统收集的数据时,UMD研究人员发现,无论是用于监控翻译质量的人工智能工具,还是更多的手动方法,都无法完全克服错误,但将人类和计算机化的能力结合起来,有望改进此类系统。

照片插图:iStock/Maria Herd M.A. ’19

虽然用外语翻译报纸文章的乱码可能只不过是一种烦恼,但机器翻译技术的使用也延伸到更高风险的环境:在医院急诊室,错误翻译的出院说明或用药方案可能会危及生命。

马里兰大学计算语言学和信息处理(CLIP)实验室的研究人员研究了这个问题,研究了从加州大学旧金山分校急诊室使用的英译机翻译系统收集的数据。他们发现,无论是用于监控翻译质量的人工智能工具,还是更多的手动方法,都无法完全克服错误,但将人类和计算机化的能力结合起来,有望改进此类系统。

在这项研究中,CLIP团队回顾了来自65名英语医生的数据,以评估两种不同的方法来评估用于中文患者的机器生成翻译的质量。

一组医生使用了一种质量评估工具——人工智能驱动的软件,可以自动预测机器翻译输出的准确性。据研究人员称,该工具通过决定向患者展示“良好”的翻译,帮助医生更恰当地依赖机器翻译。但该工具并不完美;它未能标记一些可能损害患者健康的严重错误。

第二组医生使用了一种称为反向翻译的技术,用户使用谷歌翻译重新翻译中文输出,以评估其英语输出。研究人员观察到这些医生的互补趋势: 反向翻译并不能提高他们平均评估翻译质量的能力,但 确实有助于识别质量评估工具无法标记的临床关键错误。

CLIP团队认为,其研究为未来的工作铺平了道路,设计了结合两种测试方法的优势的方法,从而产生了以人为本的评估设计,可用于进一步改进临床环境中使用的机器翻译工具。

“我们的研究证实,非专业用户经常信任人工智能系统,即使他们不应该信任,而且人们自己制定的策略来决定是否信任输出 – 例如反向翻译 – 可能会产生误导,”计算机科学副教授Marine Carpuat说。“然而,我们表明,人工智能技术也可以用来提供反馈,帮助人们校准他们对系统的信任。我们认为这是开发可信赖人工智能的第一步。

该研究的合著者、现为葡萄牙电信研究所博士后研究员的Sweta Agrawal博士23岁,他说,该项目对医疗保健和整个社会具有重要意义。

“这项工作为在高风险情况下向用户提供可操作反馈的有用性提供了支持,”她说。“此外,这些发现有助于正在进行的研究工作,以设计可靠的指标,特别是对于医疗保健等关键领域。

该团队关于“Physician Detection of Clinical Harm in Machine Translation: Quality Estimation Aids in Reliance and Backtranslation Identify Critical Errors”的研究论文最近在自然语言处理经验方法会议上获得了优秀论文奖。

UMD的其他合著者包括信息研究助理教授Ge Gao和信息研究博士三年级学生Yimin Xiao;来自加州大学伯克利分校和加州大学旧金山分校的研究人员也是合著者。

Carpuat和Gao都在马里兰大学高级计算机研究所任职,该研究所为他们在CLIP实验室的工作提供技术和行政支持。

两人最近还获得了法律与社会可信赖人工智能研究所(TRAILS)的种子基金,用于一个旨在了解人们如何看待语言翻译输出的项目。根据他们的发现,研究人员将开发新技术来帮助人们更有效地使用这些不完美的系统。

新闻旨在传播有益信息,英文版原文来自https://today.umd.edu/reliable-er-translations-might-be-job-for-humans-ai-together