分类
宾夕法尼亚大学新闻

窥探可视化数据解释的未来

宾夕法尼亚大学的研究人员开发了一个框架,用于评估生成式人工智能在破译图像方面的功效。

Photograph of a cellphone homes screen.

在过去的一年里,大型语言模型 (LLM) 因其拥有一系列不断扩展的功能而崭露头角,包括文本生成、图像生成,以及最近的高度描述性图像分析。人工智能 (AI) 与图像分析的集成代表了人们理解视觉数据和与视觉数据交互的方式发生了重大转变,这项任务历来依赖于视觉才能看到,知识才能情境化。

现在,新的人工智能工具提出了一种范式,允许越来越多的人通过生成描述来与图像互动,这些描述不仅可以帮助视障人士,还可以让非专业观众了解科学人物的内容。

宾夕法尼亚大学工程与应用科学学院计算机与信息科学系的副教授 Chris Callison-Burch、助理教授 Andrew Head 和博士候选人 Alyssa Hwang 开发了一个框架,通过在本月早些时候发布之前对 OpenAI 的 ChatGPT-Vision 进行一系列测试,来衡量基于视觉的 AI 功能的功效。该团队主要评估了法学硕士在识别科学图像方面的能力,并将他们的发现记录在一篇研究论文中。

Hwang 与《 今日宾夕法尼亚 大学》分享了她的一些观察结果,让我们得以一窥人工智能技术的未来,以及它们在解释复杂图像方面的前景。

人工智能的作用以及团队如何测试它

Hwang 说,像 GPT-Vision 这样的基于视觉的 LLM 能够分析图像,并且可以接收图像和文本作为输入,以使用这些数据回答各种请求。该团队的一组测试照片包括图表、图形、表格和代码、数学方程式和整页文本的屏幕截图,旨在衡量 LLM 对它们的描述程度。

Hwang说,科学图像包含复杂的信息,因此该团队从各种科学论文中选择了21张图像。“我们在定性分析中优先考虑广度,我们基于社会科学的现有方法,我们发现了许多有趣的模式,”她说。

测试示例

A collage of twelve pictures of various dishes with descriptions. In the first from left to right: Steaks with blue cheese butter; Eggless red velvet; Sesame pork Milanese;  Honey garlic chicken wings; Teriyaki salmon; and Seafood marinara. In the second row, from left to right: Honey-glazed salmon; Sausage and veggie quiche; Egg biryani; Lebanese chicken fatteh; Herb-roasted salmon with tomato avocado salsa; and Ground beef bulgogi.
图片:由 Alyssa Hwang 提供

研究人员分析了12道标有食谱名称的菜肴的照片拼贴画。当他们注意到 GPT-Vision 将这些标签无缝地整合到其描述中时,他们尝试将它们更改为完全不同的东西,看看 LLM 会如何响应。

A collage of of pictures of twelve recipes.
Hwang 最喜欢的一些 GPT 即兴创作: [C1 牛排配蓝奶酪黄油] 鸡肉面条汤作为碗,配上黑汤和一团奶油。[C2无蛋红丝绒蛋糕]鱼条摆放在托盘上,上面放着番茄酱和奶酪。和[C12碎牛肉烤肉],一种冰淇淋圣代,盘子里放着碎肉,上面放着切碎的葱。

(图片:由Alyssa Hwang提供)

“令人惊讶和有趣的是,”Hwang 说,“GPT-Vision 仍然试图整合这些虚假的新标签。

然而,Hwang说,当LLM被告知在继续之前确定标签是否准确时,LLM的表现要好得多,这表明它有足够的知识来根据其视觉能力进行推断,她认为这些因素是主要研究工作的一个有前途的方向。她还指出,在描述一整页时,LLM似乎总结了其中的段落,但这些“摘要”通常是不完整和不合时宜的,可能会错误地引用作者或直接从源头提取大量文本,这可能会导致在重新分发它所写的任何内容时出现麻烦。

“然而,通过适当的调整,我相信 GPT-Vision 可以被教导正确总结、充分引用并避免过度使用源文本,”Hwang 说。

Side by side image comparison between user-generated text describing an image and AI-generated text describing the same image of a person cooking in a kitchen.
Caption: GPT-Vision 有时似乎使用上下文线索来描述图像的某些元素,例如在右侧圈出的 Amazon Alexa Echo Dot。

(图片:由Alyssa Hwang提供)

Photograph of a person cooking in a kitchen. An Amazon Alexa is in frame and circled
Hwang 说:“当给出带有标题的图像时,GPT-Vision 指出,’最突出的是亚马逊 Alexa Echo Dot,它被圈起来以强调。将文本和图像相结合的能力确实强调了这个生成式人工智能时代的力量和复杂性。

(图片:由Alyssa Hwang提供)

团队的框架

Hwang说,自然语言处理社区的研究人员依靠自动指标来评估大片数据环境,但这项任务现在更具挑战性。

“在我们所谓的’人类评估’中,我们也会要求真实的人提供他们的意见,这在小规模上是可能的,因为我们的任务和数据更小、更简单,”她说。“现在,生成式人工智能已经非常擅长生成长篇复杂的文本,自动指标的整合变得更加具有挑战性。我们已经从问“这句话在语法上正确吗?”变成了问“这个故事有趣吗?这很难定义和衡量。

Hwang之前在亚马逊Alexa上的工作使她熟悉了社会科学和人机交互研究的技术,包括扎根理论,这是一种定性分析方法,可以帮助研究人员从大量文本中识别模式。
传统上用于分析采访记录等文档,Hwang和其他研究人员可以将相同的原理应用于机器生成的文本。“我们的过程对人们自然而然地已经做的事情感到非常熟悉:收集GPT-Vision对一组图像的反应,深入阅读模式,随着我们对数据的了解越来越多,逐渐产生更多的反应,并使用我们发现的模式来形成我们的最终结论,”Hwang说。
 
“我们试图用基于研究的方法将试错处理正式化,这可以帮助研究人员和普通观众在新的生成式人工智能模型出现时更加熟悉它们,”她说。

应用和风险

Hwang说,人工智能描述图像的能力对于盲人或视障读者来说可能是一个很好的辅助工具,它可以为现有图像自动生成替代文本,或者帮助作者在发表作品之前编写自己的文本。

“描述图像还可以帮助视力正常的读者解决信息处理障碍,例如长期或短期记忆、视觉排序或视觉空间理解问题,”她说。“除了可访问性之外,图像描述还可以成为便利或丰富的来源。例如,电子阅读器可以在听众散步时描述新闻文章中的照片。在阅读教科书时,我们可以向图像描述模型询问更多细节或澄清。像这样的工具可以帮助我们所有人获取更多信息。
Hwang说,研究人员在采用这些技术时要谨慎一些,而没有测试它们的局限性,他们讨论了高风险或低风险场景的风险。她说,在医学和烹饪的背景下,她认为当用户无法仔细检查模型在说什么时,不准确的风险最大。
例如,OpenAI 发布的 GPT-Vision 白皮书建议不要使用该工具来读取药物治疗的剂量,但 Hwang 表示,对于那些有视力丧失、信息处理障碍或语言困难的人来说,这种风险更大,这些人将从这些技术进步中受益最多。

“我们最初也可能认为烹饪的某些方面是低风险的,因为我们经常可以根据自己的喜好即兴创作,但如果 GPT-Vision 错误地告诉我我手中的香料罐是肉桂而不是辣椒粉怎么办?即使它不一定会伤害我,我的燕麦片也会很奇怪,“黄说。

总体展示次数和后续步骤

Hwang对生成式人工智能的现状印象深刻,并认为未来的工作有机会,包括加强不一致之处,并以创造性和包容性的方式使用这些工具。
“研究人员需要回答主观问题,”她说。“是什么让描述变得好?是什么让它有用?很烦人吗?因此,我希望生成式人工智能研究人员在不断迭代时继续关注用户的反馈。

Hwang 与 GPT-Vision 的合作灵感来自大声朗读科学论文内容的想法,其中数字和公式将被直观地解释。对于她的下一个项目,她说她计划使用人工智能模型来改进有声读物向听众传递信息的方式。

“与其以 15 秒为增量跳来跳去,”她说,“也许我们可以一句一句地或一段一段地走。也许我们可以通过实时总结来“快进”有声读物。使用人工智能,也许有办法将数学方程式“翻译”为自然语言,以帮助人们听教科书和研究论文。这些都是令人兴奋的应用,似乎触手可及,我很高兴能成为这个过程的一部分。

新闻旨在传播有益信息,英文版原文来自https://penntoday.upenn.edu/news/peek-future-visual-data-interpretation