当人工智能聊天机器人出现“幻觉”时,它们实际上在做什么?这个术语是否准确地抓住了为什么所谓的生成式人工智能工具——在许多专业环境中几乎无处不在——有时会在出现提示时产生虚假信息?
随着关于人工智能应用的真实性质、能力和轨迹的争论在幕后酝酿,该领域的一位领先专家正在反驳“幻觉”的概念,认为它在很大程度上解释了当前人工智能模型的运作方式。
“一般来说,我们不喜欢这个术语,因为这些模型会犯错误 – 我们可以解释为什么 它们会犯错误,”东北大学体验式人工智能研究所执行主任Usama Fayyad说。
法耶兹说,幻觉这个词是谷歌为了回应 OpenAI 极具影响力的 ChatGPT 的推出而推广的。虽然它是该技术类似人类的品质和弱点的令人信服的类比,但该术语用词不当,可能会对公众对人工智能技术的理解产生负面影响。
“当你说幻觉时,你把太多的东西归咎于模型,”法耶兹继续说道。“你是在归因意图;你把意识归因于此;你归因于一种默认的理性操作模式;你把某种形式的理解归因于机器。
法耶兹强调,聊天机器人“没有意图;[他们]没有理解力。他说,他们所犯的错误类型与任何预测模型固有的错误并没有什么不同,例如在经济或金融预测中使用的错误,其中错误很容易被预测并适当地考虑在内。
聊天机器人“产生幻觉”的频率仍然鲜为人知,尽管一些公司一直在努力量化广泛使用的大型语言模型的错误率。据《纽约时报》报道,其中一家公司——一家由谷歌前员工创立的初创公司Vectara——发现OpenAI的模型大约有3%的时间会产生幻觉,而一个名为“Palm chat”的谷歌平台以27%的比率产生虚假信息。
Fayyad说,更复杂的是,当前生成式AI模型产生的自动完成输出高度依赖于提示。稍微调整一下提示,你会得到一个非常不同的结果。
数据科学项目主任、库里学院Sy和Laurie Sternberg跨学科副教授拜伦·华莱士(Byron Wallace)曾将这些提示设计称为“不太提示的工程”——为聊天机器人设计输入的过程——但更像是“咒语和黑魔法”。
法耶兹希望简化围绕生成式人工智能工具潜在应用的对话。
“我可以说——这些模特产生了幻觉;或者,更准确地说,我可以说,好吧,模型犯了一个错误,我们知道这些模型犯了错误,“法耶兹说。
为了进一步混合隐喻,法耶兹提出,人类和人工智能机器之间需要更大的信任。他认为,“从业者、用户和组织需要相信一个系统如何做出决策,它如何运作,以及它不会表现出不稳定、[不可预测]或危险行为的事实。
“人工智能的话题滋生了神秘和模棱两可,”他写道。“揭开技术和算法所表现出的行为的神秘面纱,无论好坏,都会取得真正的进展,并在理论、学术、商业和实践等各个方面创造有价值的成果。”
就目前而言,ChatGPT 等大型语言模型充当“美化自动完成”应用程序,在来自在线数据库、文章和其他来源的大量数字文本上进行训练。“他们只是像任何自动完成设备一样产生输出——你的手机或其他任何东西。
“这些模型不知道正确序列和错误之间的区别,”Fayyad说。“了解错误发生 的位置 ,并试图从中恢复过来——这是一个非常困难的人工智能问题,我们今天没有很好的解决方案。
为了控制幻觉,研究人员已经开始使用其他大型语言模型来检查各种聊天机器人的准确性。当然,这些工具也能够产生错误(幻觉),Fayyad指出。
他强调,人类需要继续检查这些工具产生的输出——这个概念被称为“人机交互”。
“它让你 – 用户 – 说,’这个自动完成是不正确的’,然后修复它,”他说。
坦纳·斯泰宁(Tanner Stening)是东北全球新闻记者。给他发电子邮件 [email protected]。在 X/Twitter @tstening90上关注他。
新闻旨在传播有益信息,英文版原文来自https://news.northeastern.edu/2023/11/10/ai-chatbot-hallucinations/