分类
麻省理工学院新闻

人工智能中的推理和可靠性

Headshots of Athul Paul Jacob, Maohao Shen, Victor Butoi, and Andi Peng.

为了使自然语言成为一种有效的交流形式,相关各方需要能够理解单词及其上下文,假设内容在很大程度上是善意共享的并且是值得信赖的,对共享的信息进行推理,然后将其应用于现实世界的场景。在麻省理工学院-IBM Watson AI 实验室实习的麻省理工学院博士生——Athul Paul Jacob SM ’22、Maohao Shen SM ’23、Victor Butoi 和 Andi Peng SM ’23——正在努力攻击这一过程的每一步,这些步骤被烘焙到自然语言模型中,以便人工智能系统对用户来说更加可靠和准确。

为了实现这一目标,雅各布的研究利用博弈论触及了现有自然语言模型的核心,以改善输出。他说,他的兴趣有两个方面:“一是利用多智能体系统和语言理解的视角来理解人类的行为方式,二是’你如何利用它作为洞察力来构建更好的人工智能系统?’”他的工作源于棋盘游戏“外交”,他的研究团队开发了一个系统,可以学习和预测人类行为,并进行战略谈判以实现理想的最佳结果。

“这是一场你需要建立信任的比赛;你需要用语言交流。你还需要同时与其他六名玩家对战,这与过去人们处理的各种任务领域非常不同,“雅各布说,他指的是研究人员在神经网络中玩扑克和围棋等其他游戏。“在这样做的过程中,有很多研究挑战。一个是,“你如何模拟人类?你怎么知道人类何时倾向于非理性行为?雅各布和他的研究导师——包括麻省理工学院电气工程和计算机科学系(EECS)的雅各布·安德烈亚斯(Jacob Andreas)副教授和助理教授加布里埃尔·法里纳(Gabriele Farina),以及麻省理工学院-IBM沃森人工智能实验室的沈轶康(Yikang Shen)——将语言生成问题重新塑造为双人游戏。

使用“生成器”和“判别器”模型,雅各布的团队开发了一种自然语言系统来生成问题的答案,然后观察答案并确定它们是否正确。如果是,人工智能系统将获得一分;否则,将不奖励任何积分。众所周知,语言模型容易产生幻觉,使它们不那么可信;这种无悔的学习算法协同采用自然语言模型,并鼓励系统的答案更加真实和可靠,同时使解决方案接近预训练语言模型的先验。Jacob 说,将这种技术与较小的语言模型结合使用,可能会使其与模型的相同性能竞争,使其具有许多倍的竞争力。

一旦语言模型生成结果,研究人员理想情况下希望其生成的信心与其准确性保持一致,但事实往往并非如此。当模型报告置信度高时,可能会发生幻觉,而该置信度应该很低。沈茂豪和他的团队,以及导师Gregory Wornell,EECS的住友工程教授,以及IBM研究院的实验室研究人员Subhro Das,Prasanna Sattigeri和Soumya Ghosh,正在寻求通过不确定性量化(UQ)来解决这个问题。“我们的项目旨在校准语言模型,当它们校准得很差时,”Shen说。具体来说,他们正在研究分类问题。为此,Shen 允许语言模型生成自由文本,然后将其转换为多项选择分类任务。例如,他们可能会要求模型解决一个数学问题,然后询问它生成的答案是否正确,如“是、否或可能”。这有助于确定模型是置信度过高还是置信度不足。

为了实现这一自动化,该团队开发了一种技术,该技术有助于通过预先训练的语言模型调整置信度输出。研究人员使用地面实况信息训练了一个辅助模型,以便他们的系统能够纠正语言模型。“如果你的模型对其预测过于自信,我们能够检测到它并使其不那么自信,反之亦然,”Shen解释道。该团队在多个流行的基准数据集上评估了他们的技术,以显示它如何推广到看不见的任务,以重新调整语言模型预测的准确性和置信度。“经过培训后,你可以插入并将这种技术应用于新任务,而无需任何其他监督,”Shen说。“你唯一需要的就是这项新任务的数据。”

Victor Butoi 还增强了模型能力,但他的实验室团队——其中包括 EECS 计算机科学和电气工程的 Dugald C. Jackson 教授 John Guttag;IBM 研究院的实验室研究员 Leonid Karlinsky 和 Rogerio Feris;波恩大学的Hilde Kühne和格拉茨理工大学的Wei Lin正在创造技术,让视觉语言模型能够推理他们所看到的东西,并正在设计提示来解锁新的学习能力和理解关键短语。

Butoi解释说,组合推理只是决策过程的另一个方面,我们要求机器学习模型执行,以便它们在现实世界中有所帮助。“你需要能够从组合上思考问题并解决子任务,”Butoi 说,“比如,如果你说椅子在人的左边,你需要同时识别椅子和人。你需要理解方向。然后,一旦模型理解了“左”,研究小组希望模型能够回答涉及“左”的其他问题。

Butoi解释说,令人惊讶的是,视觉语言模型并不能很好地推理构图,但如果你愿意的话,可以使用可以“引导证人”的模型来帮助它们。该团队开发了一种模型,该模型使用一种称为大型语言模型的低秩适应(LoRA)的技术进行调整,并在一个名为Visual Genome的注释数据集上进行训练,该数据集在图像中具有对象和表示关系的箭头,例如方向。在这种情况下,经过训练的 LoRA 模型将被引导说出一些关于“左”关系的内容,然后这个字幕输出将用于提供上下文并提示视觉语言模型,使其成为一项“容易得多的任务”,Butoi 说。

在机器人领域,人工智能系统还使用计算机视觉和语言与周围环境互动。设置范围可能从仓库到家庭。Andi Peng和麻省理工学院航空航天学教授Julie Shah和马萨诸塞大学阿默斯特分校的导师Julie Shah和Chuang Gan专注于使用虚拟世界帮助身体受限的人。为此,Peng的团队正在一个名为ThreeDWorld的模拟环境中开发两个具身AI模型 – 一个需要支持的“人类”和一个辅助代理。该团队专注于人/机器人交互,利用大型语言模型捕获的语义先验来帮助辅助人工智能推断“人类”代理可能无法做到的能力以及“人类”行为背后的动机,使用自然语言。该团队希望加强帮助者的顺序决策、双向沟通、理解物理场景的能力以及如何最好地做出贡献。

“很多人认为人工智能程序应该是自主的,但我认为这个过程的一个重要部分是我们为人类构建机器人和系统,我们希望传达人类的知识,”彭说。“我们不希望一个系统以一种奇怪的方式做某事;我们希望他们以我们可以理解的人性化方式做到这一点。

新闻旨在传播有益信息,英文版原文来自https://news.mit.edu/2024/reasoning-and-reliability-in-ai-0118