大型语言模型使用一种非常简单的机制来检索一些存储的知识

Illustration of a blue robot-man absorbing and generating info. On left are research and graph icons going into his brain. On right are speech bubble icons, as if in conversation.

大型语言模型，例如为 ChatGPT 等流行的人工智能聊天机器人提供支持的模型，非常复杂。尽管这些模型在许多领域被用作工具，例如客户支持、代码生成和语言翻译，但科学家们仍然没有完全掌握它们的工作原理。

为了更好地理解引擎盖下发生的事情，麻省理工学院和其他地方的研究人员研究了这些巨大的机器学习模型检索存储知识时的工作机制。

他们发现了一个令人惊讶的结果：大型语言模型（LLM）通常使用非常简单的线性函数来恢复和解码存储的事实。此外，该模型对相似类型的事实使用相同的解码函数。线性函数是只有两个变量且没有指数的方程，它捕捉了两个变量之间直接的直线关系。

研究人员表明，通过识别不同事实的线性函数，他们可以探测模型，看看它对新主题的了解，以及知识在模型中的存储位置。

使用他们开发的一种技术来估计这些简单的函数，研究人员发现，即使模型错误地回答了提示，它通常也会存储正确的信息。将来，科学家可以使用这种方法来发现和纠正模型内部的错误，这可以减少模型有时给出错误或荒谬答案的倾向。

“尽管这些模型非常复杂，非线性函数，在大量数据上训练并且很难理解，但有时内部有非常简单的机制在工作。这是其中的一个例子，“电气工程和计算机科学（EECS）研究生埃文·埃尔南德斯（Evan Hernandez）说，他是一篇详细介绍这些发现的论文的共同主要作者。

埃尔南德斯与共同主要作者、东北大学计算机科学研究生阿纳布·夏尔马（Arnab Sharma）共同撰写了这篇论文;他的导师雅各布·安德烈亚斯（Jacob Andreas）是EECS的副教授，也是计算机科学和人工智能实验室（CSAIL）的成员;资深作者David Bau，东北大学计算机科学助理教授;以及麻省理工学院、哈佛大学和以色列理工学院的其他人。该研究将在学习表征国际会议上发表。

查找事实

大多数大型语言模型（也称为 transformer 模型）都是神经网络。神经网络松散地基于人脑，包含数十亿个相互连接的节点或神经元，这些节点或神经元被分组到许多层中，并编码和处理数据。

存储在转换器中的大部分知识可以表示为连接主体和客体的关系。例如，“迈尔斯·戴维斯（Miles Davis）吹小号”是将主语迈尔斯·戴维斯（Miles Davis）与客体小号联系起来的关系。

随着转换器获得更多的知识，它会跨多个层存储有关某个主题的其他事实。如果用户询问该主题，则模型必须解码最相关的事实以响应查询。

如果有人通过说“迈尔斯·戴维斯（Miles Davis）演奏……”来提示变形金刚。模型应该用“小号”而不是“伊利诺伊州”（迈尔斯戴维斯出生的州）来响应。

“在网络计算的某个地方，必须有一种机制来寻找迈尔斯·戴维斯（Miles Davis）吹小号的事实，然后提取这些信息并帮助生成下一个单词。我们想了解这种机制是什么，“埃尔南德斯说。

研究人员设置了一系列实验来探测LLM，并发现，尽管它们非常复杂，但这些模型使用简单的线性函数来解码关系信息。每个函数都特定于要检索的事实类型。

例如，转换器在任何时候都想输出一个人演奏的乐器时使用一个解码函数，每次它想要输出一个人出生的状态时，都会使用不同的函数。

研究人员开发了一种方法来估计这些简单的函数，然后计算了47种不同关系的函数，例如“一个国家的首都”和“乐队的主唱”。

虽然可能存在无限多的可能关系，但研究人员选择研究这个特定的子集，因为它们代表了可以以这种方式编写的事实类型。

他们通过改变主题来测试每个功能，看看它是否可以恢复正确的对象信息。例如，如果主题是挪威，则“一个国家的首都”的函数应检索奥斯陆，如果主题是英国，则应检索伦敦。

函数在60%以上的时间内检索到正确的信息，这表明转换器中的某些信息是以这种方式编码和检索的。

“但并不是所有的东西都是线性编码的。对于某些事实，即使模型知道它们并预测与这些事实一致的文本，我们也无法为它们找到线性函数。这表明该模型正在做一些更复杂的事情来存储这些信息，“他说。

可视化模型的知识

他们还使用这些函数来确定模型认为不同主题的真实性。

在一项实验中，他们从提示“比尔·布拉德利（Bill Bradley）是”开始，并使用“参加体育运动”和“上过大学”的解码函数来查看模型是否知道参议员布拉德利是一名就读于普林斯顿大学的篮球运动员。

“我们可以证明，即使模型在生成文本时可能会选择关注不同的信息，但它确实对所有这些信息进行了编码，”埃尔南德斯说。

他们使用这种探测技术来产生他们所谓的“属性透镜”，这是一个网格，可以可视化有关特定关系的特定信息存储在变压器的许多层中的位置。

属性透镜可以自动生成，提供了一种简化的方法，帮助研究人员更多地了解模型。这种可视化工具可以使科学家和工程师纠正存储的知识，并帮助防止人工智能聊天机器人提供虚假信息。

未来，埃尔南德斯和他的合作者希望更好地了解在事实不是线性存储的情况下会发生什么。他们还希望使用更大的模型进行实验，并研究线性解码函数的精度。

“这是一项令人兴奋的工作，它揭示了我们对大型语言模型在推理过程中如何回忆事实知识的理解中缺失的部分。以前的研究表明，LLMs为给定的主题构建了信息丰富的表示，在推理过程中从中提取了特定的属性。这项工作表明，用于属性提取的LLM的复杂非线性计算可以用简单的线性函数很好地近似，“特拉维夫大学计算机科学学院助理教授Mor Geva Pipek说，他没有参与这项工作。

这项研究在一定程度上得到了开放慈善事业、以色列科学基金会和 Azrieli 基金会早期职业教师奖学金的支持。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2024/large-language-models-use-surprisingly-simple-mechanism-retrieve-stored-knowledge-0325