分类
麻省理工学院新闻

AI 代理有助于解释其他 AI 系统

Digital illustration of a white robot with a magnifying glass, looking at a circuit-style display of a battery with a brain icon. The room resembles a lab with a white table, and there are two tech-themed displays on the wall showing abstract neural structures in glowing turquoise. A wire connects the robot's magnifying glass to the larger display.

解释经过训练的神经网络的行为仍然是一个引人注目的难题,特别是随着这些模型的规模和复杂性的增长。与历史上的其他科学挑战一样,逆向工程人工智能系统的工作方式需要大量的实验:提出假设,干预行为,甚至剖析大型网络以检查单个神经元。迄今为止,大多数成功的实验都涉及大量的人类监督。解释 GPT-4 或更大大小的模型中的每个计算几乎肯定会需要更多的自动化——甚至可能使用 AI 模型本身。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新的方法,使用人工智能模型在其他系统上进行实验并解释其行为。他们的方法使用从预训练的语言模型构建的代理来对训练网络内的计算进行直观的解释。

该策略的核心是“自动可解释性代理”(AIA),旨在模仿科学家的实验过程。可解释性代理计划并执行其他计算系统的测试,这些系统的规模可以从单个神经元到整个模型,以便以各种形式对这些系统进行解释:对系统做什么和在哪里失败的语言描述,以及再现系统行为的代码。与现有的被动分类或总结示例的可解释性程序不同,AIA积极参与假设形成、实验测试和迭代学习,从而实时完善其对其他系统的理解。

与AIA方法相辅相成的是新的“函数解释和描述”(FIND)基准,这是一个类似于训练网络内计算的函数测试平台,并附有对其行为的描述。评估真实世界网络组件描述质量的一个关键挑战是,描述的好坏取决于它们的解释力:研究人员无法获得单位的地面实况标签或学习计算的描述。FIND通过提供评估可解释性程序的可靠标准来解决该领域长期存在的问题:可以根据基准中的功能描述来评估功能的解释(例如,由AIA生成)。

例如,FIND包含合成神经元,旨在模仿语言模型中真实神经元的行为,其中一些神经元对单个概念(如“地面运输”)具有选择性。AIA可以黑盒访问合成神经元和设计输入(如“树”、“幸福”和“汽车”),以测试神经元的反应。在注意到合成神经元对“汽车”的响应值高于其他输入后,AIA可能会设计更细粒度的测试,以区分神经元对汽车和其他形式的交通工具(如飞机和轮船)的选择性。当AIA产生诸如“该神经元对公路运输具有选择性,而不是航空或海上旅行”之类的描述时,该描述将根据FIND中合成神经元的地面真实描述(“对地面运输的选择性”)进行评估。然后,该基准可用于将 AIA 的功能与文献中的其他方法进行比较。

Sarah Schwettmann 博士 ’21 是关于新工作的论文的共同主要作者,也是 CSAIL 的研究科学家,强调了这种方法的优势。“AIAs自主假设生成和测试的能力可能能够浮出水面,否则科学家很难发现这些行为。值得注意的是,当语言模型配备了用于探测其他系统的工具时,能够进行这种类型的实验设计,“Schwettmann说。“干净、简单的基准测试和真实答案一直是语言模型中更通用功能的主要驱动力,我们希望FIND可以在可解释性研究中发挥类似的作用。

自动化可解释性

大型语言模型仍然保持着其作为科技界炙手可热的名人的地位。LLM 的最新进展凸显了它们在不同领域执行复杂推理任务的能力。CSAIL的团队认识到,鉴于这些功能,语言模型可能能够作为通用代理的骨干,以实现自动可解释性。“可解释性历来是一个非常多方面的领域,”Schwettmann 说。“没有放之四海而皆准的方法;大多数程序都非常具体地针对我们可能遇到的关于系统的个别问题,以及视觉或语言等个别模式。在视觉模型中标记单个神经元的现有方法需要在人类数据上训练专门的模型,其中这些模型仅执行此单一任务。从语言模型构建的可解释性代理可以为解释其他系统提供一个通用界面——跨实验综合结果,在不同的模态上进行整合,甚至在非常基本的层面上发现新的实验技术。

随着我们进入一个解释模型本身就是黑匣子的制度,对可解释性方法的外部评估变得越来越重要。该团队的新基准测试通过一套具有已知结构的函数来满足这一需求,这些函数是根据在野外观察到的行为建模的。FIND中的功能跨越了多个领域,从数学推理到字符串的符号运算,再到从单词级任务构建的合成神经元。交互函数数据集是程序化构建的;通过添加噪声、组合函数和模拟偏差,将现实世界的复杂性引入到简单函数中。这允许在转化为实际性能的设置中比较可解释性方法。

除了函数数据集外,研究人员还引入了一种创新的评估协议,以评估AIA和现有自动可解释性方法的有效性。该协议涉及两种方法。对于需要在代码中复制函数的任务,评估会直接比较 AI 生成的估计值和原始的地面实况函数。对于涉及函数自然语言描述的任务,评估变得更加复杂。在这些情况下,准确衡量这些描述的质量需要自动理解其语义内容。为了应对这一挑战,研究人员开发了一种专门的“第三方”语言模型。该模型经过专门训练,用于评估 AI 系统提供的自然语言描述的准确性和连贯性,并将其与真值函数行为进行比较。

FIND使评估能够揭示我们离完全自动化的可解释性还很远;尽管AIA优于现有的可解释性方法,但它们仍然无法准确描述基准中近一半的功能。该研究的共同主要作者、CSAIL博士后Tamar Rott Shaham指出,“虽然这一代AIA在描述高级功能方面是有效的,但它们仍然经常忽略更细粒度的细节,特别是在具有噪声或不规则行为的功能子域中。这可能是由于这些地区的抽样不足。一个问题是,提前知情同意的有效性可能会受到其初始探索性数据的阻碍。为了解决这个问题,我们尝试通过使用特定的相关输入来初始化他们的搜索来指导AIA的探索,这大大提高了解释的准确性。这种方法将新的 AIA 方法与以前的技术相结合,使用预先计算的示例来启动解释过程。

研究人员还在开发一个工具包,以增强AIA在黑盒和白盒环境中对神经网络进行更精确实验的能力。该工具包旨在为 AIA 提供更好的工具,用于选择输入和完善假设检验功能,以实现更细致和准确的神经网络分析。该团队还在应对人工智能可解释性方面的实际挑战,专注于确定在真实场景中分析模型时要问的正确问题。他们的目标是开发自动化的可解释性程序,最终可以帮助人们审计系统(例如,自动驾驶或人脸识别),以便在部署前诊断潜在的故障模式、隐藏的偏见或令人惊讶的行为。

观察观察者

该团队设想有朝一日开发出几乎可以审计其他系统的AIA,并由人类科学家提供监督和指导。先进的AIA可以开发新的实验和问题,可能超出人类科学家最初的考虑范围。重点是扩展 AI 的可解释性,以包括更复杂的行为,例如整个神经回路或子网,并预测可能导致不良行为的输入。这一发展代表了人工智能研究向前迈出的重要一步,旨在使人工智能系统更易于理解和可靠。

“一个好的基准是应对困难挑战的有力工具,”哈佛大学计算机科学教授马丁·瓦滕伯格(Martin Wattenberg)说,他没有参与这项研究。“很高兴看到这种复杂的可解释性基准,这是当今机器学习中最重要的挑战之一。作者创建的自动可解释性代理给我留下了特别深刻的印象。这是一种可解释的柔术,让人工智能回归自身,以帮助人类理解。

Schwettmann、Rott Shaham 和他们的同事在 12 月的 NeurIPS 2023 上展示了他们的工作。 麻省理工学院的其他合著者,CSAIL和电气工程与计算机科学系(EECS)的所有附属机构,包括研究生Joanna Materzynska,本科生Neil Chowdhury,Shuang Li博士’23,助理教授Jacob Andreas和Antonio Torralba教授。东北大学助理教授David Bau是另一位合著者。

这项工作得到了麻省理工学院-IBM Watson AI 实验室、Open Philanthropy、亚马逊研究奖、现代 NGV、美国陆军研究实验室、美国国家科学基金会、Zuckerman STEM 领导力计划和 Viterbi 奖学金的部分支持。

新闻旨在传播有益信息,英文版原文来自https://news.mit.edu/2024/ai-agents-help-explain-other-ai-systems-0103