分类
斯坦福大学新闻

斯坦福大学的研究人员发现,自动语音识别更容易误解黑人演讲者

之所以会出现这种差异,是因为这类技术是基于机器学习系统的,而机器学习系统严重依赖美国白人所说的英语数据库。

斯坦福大学工程学院(Stanford Engineering)的研究人员进行的一项新研究显示,为美国领先的自动语音识别系统提供动力的技术,在解读非裔美国人说的话时,出错率是白人说的话出错率的两倍。

speech recognition

斯坦福大学研究人员进行的测试显示,五种主要的语音识别程序对非裔美国人的识别错误是白人的两倍。(图片来源:Getty Images)

研究人员总结道,虽然这项研究只关注了美国黑人和白人之间的差异,但类似的问题可能会影响到那些操地方口音和非英语母语口音的人。

如果不加以解决,这种转化失衡可能会对人们的职业甚至生活造成严重后果。现在,许多公司都通过语音识别的自动在线面试来筛选求职者。法院使用该技术来帮助转录听证会。此外,对于不能使用手的人来说,语音识别对于访问计算机是至关重要的。

这项研究结果发表在3月23日的《美国国家科学院院刊》(Proceedings of The National Academy of Sciences)杂志上。研究人员对亚马逊(Amazon)、IBM、谷歌、微软(Microsoft)和苹果(Apple)开发的系统进行了测试。前四家公司提供收费的在线语音识别服务,研究人员使用这些服务进行测试。第五步,研究人员构建了一个定制的iOS应用程序,使用苹果的自由语音识别技术进行测试。测试是在去年春天进行的,从那时起语音技术可能已经更新了。

研究人员无法确定公司的语音识别技术也使用他们的虚拟助理,如Siri的苹果和Alexa的亚马逊,因为公司不透露他们是否使用不同版本的技术在不同的产品。

但是人们应该期待美国该研究的主要作者Allison Koenecke说,他是计算和数学工程的博士研究生,与语言学家和计算机科学家合作进行这项工作。“现在,他们似乎并没有对所有人都这样做。”

不平等的错误率

Koenecke和她的同事测试了每家公司的语音识别系统,从对非裔美国人和白人的采访记录中提取了2000多个语音样本。黑人的语音样本来自于区域非裔美国人语料库,白人的语音样本来自于加利福尼亚之声的访谈,其中记录了对加利福尼亚不同社区居民的访谈。

所有五种语音识别技术的错误率,黑人几乎是白人的两倍——即使说话者的性别和年龄相匹配,而且他们说的是相同的单词。平均而言,这些系统误解了35%的黑人词汇,而只有19%的白人词汇。

非裔美国男性的错误率最高,而在大量使用非裔美国本土英语的人群中,错误率的差异也更大。

研究人员还进行了额外的测试,以确定五种语音识别技术对单词的误读频率有多高,以至于这些转录实际上毫无用处。他们测试了数千个语音样本,平均长度为15秒,以计算这些技术通过一个阈值的频率,即每个样本中至少有一半的单词被搞砸了。这种令人无法接受的高错误率发生在超过20%的黑人口语样本中,而白人口语样本的错误率不到2%。

隐藏的偏见

研究人员推测,所有五种技术的共同差异源于一个共同的缺陷——用于训练语音识别系统的机器学习系统可能严重依赖美国白人所说的英语数据库。一个更公平的方法是包括反映其他说英语的人口音和方言更大多样性的数据库。

与其他制造商不同的是,提供语音识别系统的公司没有这样的义务。法律或习俗通常要求其他制造商解释他们的产品中含有什么成分,以及它们应该如何工作。

斯坦福大学(Stanford)的计算工程学教授沙拉德·戈埃尔(Sharad Goel)负责监督这项工作,他说,这项研究强调了对语音识别等新技术进行审计的必要性,因为这些技术可能会把已经被边缘化的人排除在外。这样的审核需要由独立的外部专家来完成,需要花费大量的时间和精力,但是确保这项技术的包容性是非常重要的。

“我们不能指望公司自我监管,”戈埃尔说。“这不是他们的初衷。我可以想象,如果有足够的公众压力,一些人可能会自愿接受独立审计。但政府机构可能也有必要加强监督。人们有权利知道影响他们生活的技术有多有效。”

此外,戈埃尔还是计算机科学、社会学和法学的教授,斯坦福大学计算政策实验室的执行主任。斯坦福大学的其他合著者还包括丹•朱拉夫斯基(Dan Jurafsky)、杰克逊•伊莱•雷诺兹(Jackson Eli Reynolds)人文学科教授、语言学教授兼讲座教授、计算机科学教授;约翰·r·里克福德,J.E.华莱士·斯特林人文学科教授,名誉退休;斯坦福大学计算政策实验室研究员乔·纽德尔;研究生Andrew Nam, Emily Lake和Zion Ariana Mengesha;还有大学生Connor Toups。这个研究小组还包括乔治城大学的研究生敏妮·夸特。

要阅读关于斯坦福科学的所有故事,请订阅《斯坦福科学文摘》。

新闻旨在传播有益信息,英文原版地址:https://news.stanford.edu/2020/03/23/automated-speech-recognition-less-accurate-blacks/