如何防止人工智能杀死我们所有人

A pink robot hand and a pink human hand reach for each other against a blue background

加州大学伯克利分校教授斯图尔特·罗素（Stuart Russell）和博士后学者迈克尔·科恩（Michael Cohen）说，如果不加以控制，强大的人工智能系统可能会对人类的未来构成生存威胁。

社会已经在努力应对人工智能快速普及带来的无数问题，包括虚假信息、两极分化和算法偏见。与此同时，科技公司正在竞相构建更强大的人工智能系统，而对人工智能安全的研究则远远落后。

如果不给强大的人工智能系统提供明确定义的目标，或者创建强大的机制来控制它们，人工智能有一天可能会逃避人类的控制。如果这些人工智能的目标与人类的目标不一致，那么它可能意味着人类的终结。

在最近发表在《科学》杂志上的一篇见解论文中，他们认为，在人工智能系统被允许进入市场之前，科技公司应该负责确保其人工智能系统的安全性。 伯克利新闻（Berkeley News）采访了罗素（Russell）和科恩（Cohen），讨论了人工智能带来的威胁，我们离开发危险的人工智能系统有多近，以及人工智能永远不应该被允许跨越哪些“红线”。

伯克利新闻：首先，您能否描述一下未来的人工智能系统如何逃避人类的控制，以及如果它们这样做会构成什么威胁？

斯图尔特·罗素（Stuart Russell）是加州大学伯克利分校（UC Berkeley）计算机科学的杰出教授，也是人类兼容人工智能中心（Center for Human-Compatible Artificial Intelligence）的主任。

斯图尔特·罗素： 智慧赋予你统治世界的力量，如果你更聪明——所有其他条件都相同——你将拥有更多的力量。因此，如果我们构建追求目标的人工智能系统，而这些目标与人类想要的东西并不完全一致，那么人类将无法得到他们想要的东西，而机器会得到。

实际上，我们已经为机器提供了银行账户、信用卡、电子邮件账户、社交媒体账户。他们可以使用机器人科学实验室进行化学和生物学实验，我们非常接近拥有全自动制造设施，他们可以在那里设计和建造自己的物理对象。我们还在制造完全自主的武器。

如果你把自己放在一台机器的位置上，你试图追求某个目标，而人类阻碍了目标的实现，那么可能很容易制造出一种化学催化剂，从大气中去除所有的氧气，或者一种感染每个人的改良病原体。我们甚至可能不知道发生了什么，直到为时已晚。

迈克尔·科恩： 他们还可以创建其他代理来为他们工作，因此您可以快速拥有一个系统，其中有很多不受监控且无法监控的代理来执行此类操作。

这些具有潜在危险的人工智能系统与那些策划我们社交媒体提要的系统有何不同？人工智能需要哪些属性才能逃避人类的控制并变得危险？

迈克尔·科恩（Michael Cohen）是人类兼容人工智能中心的博士后学者。

罗素： 你在社交媒体和聊天机器人中看到的就是我们所说的反应式系统：输入输入，输出输出，没有时间去思考。据我们所知，这种人工智能系统不会考虑未来。

然而，如果你下国际象棋、围棋或很多电子游戏，你就会习惯于处理我们所关心的那种系统，因为你可能会输掉一场比赛又一场比赛。这些系统可以计划和考虑长序列行动的后果，这使它们能够超越人类。

我们谈论的代理类型基本上将大型语言模型从阅读人类编写的所有内容中提取的知识广度与游戏程序中的计划和协调能力结合起来。

科恩： 我认为这是关键的区别。另一个区别是，我们所关注的系统可能还需要比今天存在的更好的世界模型。

你说的“世界模型”是什么意思？

科恩： 世界模型是可以根据其所知道的内容预测世界将如何继续发展的东西。

罗素： 你可以把它想象成国际象棋的规则——这是国际象棋的世界模型。如果我把我的主教搬到这里，那么我的主教就会在这里结束。你知道，当 ChatGPT 出来时，我的一个朋友问：“如果我有 20 美元，我给我的朋友 10 美元，我们有多少钱？上面写着30美元。这是一个糟糕的世界模型的例子。

我同意Demis Hassabis的观点，他最近在一次演讲中说，他认为我们仍然需要一两个重大突破，然后才能拥有对人类来说是一个巨大的闪光灯的能力。

是否有可能在为时已晚之前知道人工智能代理何时获得了这些能力？

科恩： 我们不知道——以目前人工智能的构建方式，我们无法确定。

我认为有充分的理由认为，大型语言模型实际上是在获取目标。

斯图尔特·罗素

罗素： 我想说的是，如果这个突破是通过人类的聪明才智实现的突破，我们会意识到这一点，因为我们将弄清楚如何将所有这些世界知识——从人类文本中提取出来——与这种推理和计划的能力结合起来。

但令人担忧的是：大型语言模型内部发生了什么？我们没有最微弱的想法。我认为有充分的理由认为，大型语言模型实际上是在获得目标，因为我们正在训练它们模仿人类，而人类是有目标的。但是我们没有办法找出他们有什么目标或他们如何追求这些目标。

**在你最近的《科学》论文中，你认为政策和监督是防止人工智能系统逃避人类控制的关键。为什么会这样，你会倡导哪些关键政策？**

科恩： 主要的人工智能实验室正在使用奖励来训练他们的系统，以追求长期目标。当他们提出更好的算法和更强大的系统时，这可能会激励与人类生活不相容的行为。需要阻止他们这样做。

我们建议，如果一个人工智能系统能够做出极其危险的行为，并且它被训练去尽可能地追求长期目标，那么这样的系统应该被“控制”，而不是首先被建造。

我们基本上是说，在你证明它是安全的之前，你不能打开通用人工智能。

斯图尔特·罗素

罗素： 你可能会问，“你和你的学生为什么不解决这个问题呢？如果你只看资源，在初创公司和大型科技公司之间，我们今年可能会花费1000亿美元来创造通用人工智能。我认为，公共部门在人工智能安全研究方面的全球支出——弄清楚如何使这些系统安全——可能是1000万美元。我们谈论的是投资减少约 10,000 倍的系数。

因此，我认为唯一的出路是弄清楚如何使人工智能安全成为开展业务的条件。如果你考虑其他安全很重要的领域，比如医药、飞机和核电站，政府和公共研究部门并不能解决所有的安全问题，然后把所有的解决方案都交给行业，对吧？他们对公司说，“如果你想把一些可能不安全的东西放在那里，你不能——除非你弄清楚如何让它安全。

我们基本上是说，在你证明它是安全的之前，你不能打开通用人工智能。额外的问题——棘手的部分——是人工智能系统比飞机之类的东西要通用得多。安全没有简单的定义。

我们正在探索的是我们称之为红线的东西，这是人工智能系统绝对不应该做的事情。

这些红线有哪些？

罗素： 这些措施包括未经许可不得自行复制，不得就如何制造生物武器向恐怖分子提供建议，不得侵入其他计算机系统，不得诽谤真实个人，不得将机密信息泄露给我们的敌人。

你可以列出这些东西的一长串，清单上哪些东西并不特别重要。这个想法是，为了表明系统不会越过这些红线，公司必须能够理解、预测和控制他们构建的人工智能系统，而目前他们还没有接近能够做到这一点。

美国目前如何监管人工智能系统？我们的政策是否跟上了人工智能的快速发展？

罗素： 我们现在唯一真正拥有的是去年年底出台的行政命令，它提出的唯一要求是围绕报告。它说，正在建造超过一定规模的模型的公司必须告诉政府他们正在这样做。其余的几乎是自愿的。

当谈到防止先进的人工智能逃脱我们的控制时，我想说每个人都还处于早期阶段。

迈克尔·科恩

因此，我们远远没有达到欧盟和中国现有的法规。但即使在那里，也不需要预先提供安全证明。这些行为也没有谈论生存风险。他们谈论当前的风险——偏见、虚假信息、操纵等等——但与失去人类控制的关系很少。

科恩： 当谈到防止先进的人工智能逃脱我们的控制时，我想说每个人都还处于早期阶段。

当我们已经在与猖獗的两极分化、虚假信息和现有人工智能引起的其他问题作斗争时，为什么考虑这些高级人工智能代理的潜在影响很重要？

罗素： 因为我更希望人类的生命和文明继续下去。

新闻旨在传播有益信息，英文版原文来自https://news.berkeley.edu/2024/04/09/how-to-keep-ai-from-killing-us-all

伯克利新闻： 首先，您能否描述一下未来的人工智能系统如何逃避人类的控制，以及如果它们这样做会构成什么威胁？