Q&A：威斯康星大学的研究人员回答了有关ChatGPT等语言模型的常见问题

语言模型在某种程度上暗中主导了去年的新闻。这些系统通常被称为“人工智能”，是 ChatGPT 和 Google Bard 等聊天机器人的基础。

但华盛顿大学的一组研究人员注意到，即使在人工智能骚动的一年中，许多人也很难找到关于语言模型是什么以及它们如何工作的准确、可理解的信息。新闻文章经常关注最新的进展或企业争议，而研究论文对公众来说过于技术性和细化。因此，该团队最近发表了“语言模型：困惑者指南”，这是一篇用通俗易懂的语言解释语言模型的论文。

为了回答一些常见问题，UW News采访了主要作者Sofia Serrano，他是Paul G. Allen计算机科学与工程学院的UW博士生;合著者Zander Brumbaugh，艾伦学院的硕士生;资深作者诺亚·史密斯（Noah A. Smith），艾伦学院教授。

简而言之，什么是语言模型，它们是如何工作的？

Sofia Serrano：语言模型本质上是一个下一个单词的预测器。它查看大量文本并注意哪些单词倾向于跟随其他单词的哪个序列。通常，当我们谈论语言模型时，我们现在谈论的是一个大型机器学习模型，其中包含许多不同的数字，称为参数。这些数字会根据训练模型的每个新文本数据进行调整。结果是一个巨大的数学函数，总体上非常擅长预测接下来出现的单词，给定提示中提供的单词，或者模型到目前为止产生的单词。事实证明，这些大型模型还收集了有关语言结构的东西以及属于常识或世界知识范畴的事物。

在这篇论文中，你提出了“黑匣子”的概念，它指的是很难知道这个巨大的函数内部发生了什么。具体来说，研究人员还不明白什么？

诺亚·史密斯： 我们非常了解机械水平——当您推送输入并做出预测时正在计算的方程式。我们在行为层面上也有一些理解，因为人们正在对语言模型进行各种科学研究，就好像它们是实验室受试者一样。

在我看来，我们几乎不了解的水平是介于中间的数字运算之上的机制。函数是否捕获了抽象？有没有办法切开这些中间计算，然后说，“哦，它理解概念，或者它理解语法”？

这不像在汽车引擎盖下看。了解汽车的人可以向你解释每件作品的作用以及它为什么在那里。但是，我们用来检查语言模型预测内部发生的事件的工具并不是很好。如今，他们有十亿到一万亿个参数。这个数字比任何人都能看到的要多。即使在较小的模型中，这些数字也没有任何单独的含义。他们共同努力，将前一个单词序列转化为对下一个单词的预测。

为什么要区分 AI 和语言模型？

SS：”“人工智能”是一个总称，可以指许多不同的研究社区，这些社区围绕着让计算机以某种方式“学习”。但它也可以指使用这些“学习”技术开发的系统或模型。当我们说“语言模型”时，我们更具体地介绍了属于 AI 保护伞的特定概念。

NS：“AI”这个词带来了很多先入为主的想法。我认为这就是它在营销中被大量使用的部分原因。术语“语言模型”具有精确的技术定义。我们可以清楚地知道语言模型到底是什么，不是什么，它不会带来所有这些先入之见和感受。

SS：即使在自然语言处理研究社区中，人们也会谈论语言模型的“思考”或“推理”。在某些方面，这种语言作为速记是有意义的。但是当我们使用“思考”这个词时，我们大多知道它是如何对人类起作用的。然而，当我们将这个术语应用于语言模型时，它可能会产生一种感觉，即类似的过程正在发生。

同样，语言模型是学习数学函数中的一堆数字。公平地说，这些数字能够恢复或显示模型以前看到的信息，或者找到输入文本之间的联系。但通常有一种趋势，即走得更远，对模型可能拥有的任何推理做出假设。我们还没有真正看到这种流畅程度与我们所认为的智力的其他方面脱钩。因此，我们很容易将流利度误认为是我们通常将“智力”一词纳入“智力”一词的所有其他事物。

您能举例说明这种流利度如何转化为被认为是智能的东西吗？

Zander Brumbaugh：我认为确定什么是智力展示是相当困难的。例如，如果有人问模特，“我正在挣扎和沮丧——我该怎么办？该模型可能会提供看似合理的建议。对语言模型经验有限的人可能会认为这是智能，而不是下一个单词的预测。

NS：如果你告诉一个模特，“我今天过得很糟糕”，而它的反应听起来像一个治疗师，它可能在网上阅读了一堆指导人们同理心的文章，所以当它抓住正确的上下文时，它会非常流畅。但是，如果它开始以你的悲伤为食，告诉你你很糟糕，它可能抓住了其他文本来源。它可以再现我们在网上看到的人类智力和行为的各种品质。因此，如果一个模型的行为方式看起来很聪明，你应该首先问：“它在训练数据中看到了什么，看起来像这个对话？

在某些情况下，是什么让编译一个好的数据集来训练语言模型变得困难？

ZB：今天的模型大致包括了整个公共互联网。能够收集这些数据需要大量的资源。在语言建模中，从本质上讲，你投入的东西就是你将要得到的东西。因此，人们正在研究如何最好地收集数据，对其进行过滤，并确保你没有放入有毒或有害的东西，或者只是最低质量的东西。这些都提出了不同的挑战。

为什么拥有原始训练数据集中没有的测试数据至关重要？

NS：我称之为机器学习的基本规则。当你评估一个模型时，你要确保你正在衡量它在以前从未见过的东西上的表现。在论文中，我们将其与以某种方式获得期末考试答案密钥副本的学生进行了比较。他们是否看过都没关系。他们的考试对判断他们是否学到了什么没有用。语言模型也是如此。如果测试示例在训练数据中，那么它可能只是记住了它所看到的。有一大批研究人员认为这些模型做了大量的记忆——也许不是完美的记忆，而是模糊的记忆。有时会使用“污染”一词。如果训练数据被测试污染，这并不意味着语言模型是愚蠢的或聪明的。这只是意味着我们无法得出任何结论。

对于公众来说，现在了解语言模型有什么重要意义？

ZB：我们需要不断将语言模型与智能概念分开。这些模型并不完美。它们听起来非常流利，但它们容易产生幻觉——这是它们产生错误或虚构信息的时候。我认识一些人，他们正在将语言模型用于相对重要的事情，例如查找信息。但他们模糊地表达了他们所学到的东西。它们不是数据库或谷歌搜索。

NS：如果你看看伟大的技术成就——飞机或互联网——大多数都是因为有一个明确的目标。我们想让人们在空中移动，或者在计算机之间发送信息。但就在几年前，语言模型在很大程度上还是研究成果。一些系统正在使用，例如谷歌翻译。但我不认为研究人员对通过创造产品来解决问题有清晰的认识。我认为我们更多的是说，“让我们看看如果我们扩大规模会发生什么。然后，偶然地，这种流畅性产生了这些其他结果。但这项研究并没有考虑到一个目标，即使是现在，也没有人知道这个目标是什么。这有点令人兴奋，因为我们中的一些人希望看到这些模型变得更加开放，因为我们认为有很大的潜力。但大型科技公司没有理由制造一个对索菲亚、我或你都非常有效的工具。因此，这些模式必须民主化。

实现民主化有哪些基本步骤？

NS：一些组织正在构建开放的语言模型，其中参数、代码和数据是共享的。我在其中一个组织——艾伦人工智能研究所（Allen Institute for Artificial Intelligence）兼职工作，但还有其他组织。Meta 已经推出了没有数据的模型，但这总比没有好。一家名为EleutherAI的公司推出了开放模型。这些模型的运行成本通常仍然很高。因此，我认为我们需要更多的研究投资，使它们更有效率，让我们可以采用一个大模型，并使其足够便宜，可以在笔记本电脑上运行。

欲了解更多信息，请联系 [email protected] 的 Serrano、[email protected] 的 Brumbaugh 和 [email protected] 的 Smith。

新闻旨在传播有益信息，英文版原文来自https://www.washington.edu/news/2024/01/09/qa-uw-researchers-answer-common-questions-about-language-models-like-chatgpt/