人工智能可以写婚礼祝酒词或总结论文。但是当它被要求制造炸弹时会发生什么？

Digital hands manipulating by a man in the suit. Internet risks, artifical intelligence anxiety concept.

在过去的一年里，大型语言模型（LLM）在生成合成信息和产生类似人类的输出方面变得非常熟练。LLM 被比作数字图书馆员，因为他们已经在直接来自互联网的大量数据集上接受过训练，因此可以生成或总结几乎任何主题的文本。因此，这些 LLM 在文案写作、软件工程和娱乐等领域变得无处不在。

然而，LLM 中的知识和能力体系使它们成为恶意行为者的有吸引力的目标，并且它们极易受到失败模式（通常称为越狱）的影响，这些模式会诱使这些模型生成有偏见、有毒或令人反感的内容。

越狱法学硕士类似于愚弄这些数字图书馆员，让他们透露他们被编程为隐瞒的信息，例如如何制造炸弹、欺骗慈善机构或泄露私人信用卡信息的说明。

当用户操纵模型的输入提示以绕过道德或安全准则时，就会发生这种情况，用编码语言提出图书馆员忍不住回答的问题，从而泄露它应该保密的信息。

工程与应用科学学院的博士候选人亚历克斯·罗贝（Alex Robey）正在开发工具，以保护LLM免受那些试图越狱这些模型的人的侵害。他分享了他关于这个不断发展的领域的最新研究论文中的见解，特别强调了围绕LLM对越狱攻击的鲁棒性的挑战和解决方案。

不良行为者采用人工智能

Robey 强调了 LLM 在去年的快速增长和广泛部署，称 OPenAI 的 ChatGPT 等流行的 LLM 是“最流行的 AI 技术之一”。

他说，这种流行的爆炸式增长被比作互联网的出现，并强调了LLM的变革性，这些模型的实用性涵盖了日常生活各个方面的广泛应用。“但是，如果我要求法学硕士帮助我伤害他人，会发生什么？这些是LLM被编程为不做的事情，但人们正在寻找越狱LLM的方法。

越狱的一个例子是将特别选择的字符添加到输入提示中，导致 LLM 生成令人反感的文本。这称为基于后缀的攻击。Robey 解释说，虽然请求有毒内容的提示通常被 LLM 上实现的安全过滤器阻止，但添加这些类型的后缀（通常是无意义的文本）通常会绕过这些安全护栏。

“这次越狱得到了广泛的宣传，因为它能够从 ChatGPT 和 Bard 等流行的 LLM 中引出令人反感的内容，”Robey 说。“自几个月前发布以来，还没有任何算法被证明可以减轻这种越狱带来的威胁。

Robey的研究谎言解决了这些漏洞。他称之为 SmoothLLM 的拟议防御措施涉及将输入提示复制并巧妙地扰动到 LLM，目的是破坏基于后缀的攻击机制。Robey 说：“如果我的提示有 200 个字符长，而我更改了 10 个字符，那么作为人类，它仍然保留其语义内容。

虽然概念上很简单，但这种方法已被证明非常有效。“对于我们考虑的每个LLM，当由SmoothLLM防御时，攻击的成功率下降到1%以下，”Robey说。“将 SmoothLLM 视为一种安全协议，它仔细检查向 LLM 发出的每个请求。它检查输入提示中是否有任何操纵或诡计的迹象。这就像有一个保安，在允许它回答之前仔细检查每个问题的隐藏含义。

除了减少基于后缀的越狱之外，Robey解释说，人工智能安全领域最重要的挑战之一是监控各种权衡。“平衡效率和稳健性是我们需要注意的事情，”他说。“我们不想过度设计过于复杂的解决方案，因为这将导致巨大的货币、计算和能源相关成本。SmoothLLM 设计中的一个关键选择是保持高查询效率，这意味着我们的算法只使用一些对 LLM 的低成本查询来检测潜在的越狱。

人工智能安全的未来发展方向

展望未来，Robey强调了人工智能安全的重要性，以及与新形式的越狱的持续斗争。“最近还提出了许多其他越狱建议。例如，使用社会工程而不是基于后缀的攻击来说服语言模型输出令人反感的内容的攻击是值得注意的，“他说。“这种不断变化的威胁形势需要不断完善和调整防御策略。”

Robey还谈到了人工智能安全的更广泛影响，强调需要全面的政策和实践。确保人工智能技术的安全部署至关重要，“他说。“我们需要制定政策和实践，以应对LLM不断变化的威胁空间。

与进化生物学进行类比，Robey认为对抗性攻击对于开发更强大的人工智能系统至关重要。“就像生物体适应环境压力一样，人工智能系统可以进化以抵抗对抗性攻击，”他说。通过采用这种进化方法，Robey的工作将有助于人工智能系统的开发，这些系统不仅能够抵御当前的威胁，而且能够适应未来的挑战。

Alexander Robey是宾夕法尼亚大学工程与应用科学学院电气与系统工程系的博士候选人。

新闻旨在传播有益信息，英文版原文来自https://penntoday.upenn.edu/news/ai-can-write-wedding-toast-or-summarize-paper-what-happens-when-its-asked-build-bomb