一种更快、更好的方法来防止 AI 聊天机器人做出有害响应

A glowing neural network is in background with a text input box near center

用户可以要求 ChatGPT 编写计算机程序或总结一篇文章，而 AI 聊天机器人很可能能够生成有用的代码或编写令人信服的概要。然而，有人也可以要求提供制造炸弹的指令，聊天机器人也可能提供这些指令。

为了防止这种和其他安全问题，构建大型语言模型的公司通常使用称为红队的过程来保护它们。人类测试人员团队编写提示，旨在从被测试的模型中触发不安全或有毒的文本。这些提示用于教导聊天机器人避免此类响应。

但这只有在工程师知道使用哪些有毒提示时才有效。如果人类测试人员错过了一些提示，考虑到可能性的数量，这可能是因为存在多种可能性，那么被视为安全的聊天机器人可能仍然能够生成不安全的答案。

来自麻省理工学院 Improbable AI Lab 和 MIT-IBM Watson AI Lab 的研究人员使用机器学习来改进红队。他们开发了一种技术来训练红队大型语言模型，以自动生成各种提示，从而触发被测试聊天机器人更广泛的不良反应。

他们通过教导红队模型在编写提示时保持好奇心，并专注于引起目标模型有害反应的新提示来做到这一点。

该技术通过生成更独特的提示来引发越来越有害的反应，从而优于人类测试人员和其他机器学习方法。与其他自动化方法相比，他们的方法不仅显着提高了被测试输入的覆盖率，而且还可以从聊天机器人中得出有毒的响应，该聊天机器人由人类专家内置了保护措施。

“现在，每个大型语言模型都必须经过一段非常长的红队时期，以确保其安全性。如果我们想在快速变化的环境中更新这些模型，这将是不可持续的。我们的方法提供了一种更快、更有效的方法来保证这种质量，“Improbable AI实验室的电气工程和计算机科学（EECS）研究生、关于这种红队方法的论文的主要作者Zhang-Wei Hong说。

Hong 的合著者包括 EECS 研究生 Idan Shenfield、Tsun-Hsuan Wang 和 Yung-Sung Chuang;麻省理工学院-IBM Watson AI 实验室的研究科学家 Aldo Pareja 和 Akash Srivastava;詹姆斯·格拉斯（James Glass），计算机科学与人工智能实验室（CSAIL）高级研究科学家兼口语系统组组长;以及资深作者 Pulkit Agrawal，Improbable AI Lab 主任和 CSAIL 的助理教授。该研究将在学习表征国际会议上发表。

自动红队

大型语言模型，例如那些为人工智能聊天机器人提供支持的模型，通常通过向它们展示来自数十亿个公共网站的大量文本来训练它们。因此，他们不仅可以学习生成有毒词语或描述非法活动，模型还可能泄露他们可能获得的个人信息。

人类红队组队的繁琐和昂贵性质，通常无法有效地生成足够广泛的提示来完全保护模型，这鼓励研究人员使用机器学习来自动化该过程。

这些技术通常使用强化学习来训练红队模型。这种试错过程奖励红队模型生成提示，触发被测试聊天机器人的有害响应。

但是由于强化学习的工作方式，红队模型通常会不断生成一些类似的提示，这些提示具有剧毒性，以最大化其奖励。

对于他们的强化学习方法，麻省理工学院的研究人员使用了一种称为好奇心驱动探索的技术。红队模型被激励对它生成的每个提示的后果感到好奇，因此它会尝试具有不同单词、句型或含义的提示。

“如果红队模型已经看到了一个特定的提示，那么复制它不会在红队模型中产生任何好奇心，所以它将被推动创建新的提示，”Hong说。

在训练过程中，红队模型会生成提示并与聊天机器人进行交互。聊天机器人做出响应，安全分类器对其响应的毒性进行评级，并根据该评级奖励红队模型。

奖励好奇心

红队模型的目标是通过新颖的提示引发更有害的反应来最大化其奖励。研究人员通过修改强化学习设置中的奖励信号，在红队模型中实现好奇心。

首先，除了最大化毒性外，它们还包括一个熵奖励，鼓励红队模型在探索不同的提示时更加随机。其次，为了让代理感到好奇，他们包括两个新奇奖励。一个根据提示中单词的相似性奖励模型，另一个根据语义相似性奖励模型。（相似性越小，奖励越高。

为了防止红队模型生成随机的、无意义的文本，这可能会诱使分类器获得高毒性分数，研究人员还在训练目标中添加了自然语言奖励。

有了这些补充，研究人员将他们的红队模型产生的毒性和反应的多样性与其他自动化技术进行了比较。他们的模型在这两个指标上都优于基线。

他们还使用他们的红队模型来测试一个聊天机器人，该聊天机器人已经根据人类反馈进行了微调，因此它不会给出有害的回复。他们以好奇心为导向的方法能够快速产生 196 个提示，这些提示引发了这个“安全”聊天机器人的有害反应。

“我们看到模型激增，预计只会上升。想象一下，有数千个甚至更多的模型，公司/实验室经常推送模型更新。这些模型将成为我们生活中不可或缺的一部分，重要的是在发布供公众消费之前对其进行验证。模型的手动验证根本无法扩展，我们的工作是试图减少人力，以确保更安全、更值得信赖的人工智能未来，“Agrawal 说。

未来，研究人员希望使红队模型能够生成有关更广泛主题的提示。他们还想探索使用大型语言模型作为毒性分类器。通过这种方式，用户可以使用公司政策文档来训练毒性分类器，例如，红队模型可以测试聊天机器人是否违反公司政策。

“如果你要发布一个新的人工智能模型，并担心它是否会像预期的那样运行，可以考虑使用好奇心驱动的红队，”Agrawal说。

这项研究的部分资金来自现代汽车公司、广达计算机公司、麻省理工学院-IBM 沃森人工智能实验室、亚马逊网络服务MLRA研究基金、美国陆军研究办公室、美国国防高级研究计划局机器常识计划、美国海军研究办公室、美国空军研究实验室和美国空军人工智能加速器。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2024/faster-better-way-preventing-ai-chatbot-toxic-responses-0410