聚焦大型语言模型中偏见的根源

Graphic of finger pointing

当人工智能模型深入研究数百千兆字节的训练数据来学习语言的细微差别时，它们也会吸收文本中编织的偏见。

达特茅斯学院的计算机科学研究人员正在设计方法来研究模型中编码这些偏见的部分，为减轻（如果不能完全消除它们）铺平道路。

在最近发表在《2023年自然语言处理经验方法会议论文集》上的一篇论文中，合著者瓜里尼研究生和高级研究学院的计算机科学博士候选人Weicheng 马和计算机科学助理教授Soroush Vosoughi研究了刻板印象是如何在预训练的大型语言模型中编码的。

大型语言模型或神经网络是一种深度学习算法，旨在在大型数据集上训练时处理、理解和生成文本和其他内容。

Vosoughi说，预训练模型有偏见，比如刻板印象。这些通常是积极的（例如，暗示某个特定群体擅长某些技能）或消极的（假设某人根据其性别从事某种职业）。

机器学习模型有望以各种方式渗透到日常生活中。他们可以帮助招聘经理筛选成堆的简历，促进银行贷款的更快批准或拒绝，并在假释决定期间提供建议。

计算机科学博士候选人Weicheng 马是该研究的合著者。（摄影：Katie Lenhart）

但是，基于人口统计学的固有刻板印象会产生不公平和不良的结果。为了减轻这种影响，“我们问，即使在模型经过训练后，我们是否可以对刻板印象做任何事情，”Vosoughi说。

研究人员首先提出了一个假设，即刻板印象与其他语言特征和模式一样，被编码在神经网络模型的特定部分，称为“注意力头”。这些类似于一组神经元;它们允许机器学习程序记住多个输入单词，以及其他功能，其中一些功能仍未完全理解。

马，Vosoughi和他们的合作者创建了一个充满刻板印象的数据集，并用它来反复调整60种不同的预训练大型语言模型，包括BERT和T5。通过放大模型的刻板印象，数据集就像一个检测器，聚焦在编码这些偏见方面承担重任的注意力头。

在他们的论文中，研究人员表明，修剪最严重的罪犯可以显着减少大型语言模型中的刻板印象，而不会显着影响他们的语言能力。

“我们的发现打破了传统观点，即人工智能和自然语言处理的进步需要广泛的训练或复杂的算法干预，”马说。根据马的说法，由于该技术本质上不是特定于语言或模型的，因此它将广泛适用。

更重要的是，Vosoughi补充说，数据集可以进行调整，以揭示一些刻板印象，但让其他刻板印象不受干扰——“这不是一个放之四海而皆准的。

因此，医学诊断模型中，基于年龄或性别的差异对患者评估可能很重要，它将使用与用于消除从挑选潜在求职者的模型中消除偏见的数据集版本不同的数据集。

该技术仅在可以访问经过充分训练的模型时才有效，不适用于黑盒模型，例如 OpenAI 的聊天机器人 ChatGPT，其内部工作原理对用户和研究人员来说是不可见的。

马说，将目前的方法应用于黑匣子模型是他们直接的下一步。

新闻旨在传播有益信息，英文版原文来自https://home.dartmouth.edu/news/2024/01/zeroing-origins-bias-large-language-models