分类
加州理工大学新闻

Neural Networks Playing Video Games Teach Us About Our Own Brains

当你在开车时,你的大脑吸收了大量的视觉信息并利用它来做出驾驶决定,比如何时刹车或变道。大脑需要确定在你的视野中什么样的信息对做出这些决定是必要的。例如,另一辆车的位置非常重要,但天空中的云或那辆车的颜色并不会真正影响你驾驶的方式。

这是一个在复杂的自然环境中做决定的日常例子。当有大量的感官数据需要快速做出决定时,大脑在做什么呢?为了研究这一问题和相关问题,研究人员可以使用我们日常生活中的模拟实验:电子游戏。

加州理工学院的一项新研究比较了人类在玩经典的雅达利电子游戏时的脑部扫描图和经过训练玩相同游戏的复杂人工智能(AI)网络。在研究生洛根·克罗斯(Logan Cross)的带领下,研究人员将经过训练的人工智能的行为与人类的行为进行了比较,发现人工智能中"neurons"的活动看起来与人类大脑的活动非常相似。这意味着,人工智能可能会像人类大脑一样解决这些决策任务,这使它成为研究人类大脑如何将高维视觉输入映射到复杂环境中的行动的良好模型。

这项研究是在心理学教授约翰·多尔蒂的实验室进行的。12月15日发表在《神经元》(Neuron)杂志上的一篇论文描述了这项研究。Doherty是加州理工学院天桥和Chrissy Chen神经科学研究所的一名附属教员。

" Doherty说,人工智能和神经科学之间的互动是双向的。"If我们可以找出类似的人工智能算法是大脑,这有助于我们更好地了解大脑是如何解决这些难题,但是相反如果我们可以理解为什么以及大脑如何更有效地解决这些游戏相比,一个人工智能,这可能帮助指导的发展更聪明和更future."人类的智能算法

决策神经科学研究的是大脑中的神经活动是如何促使人们做出决策的。在决策神经科学领域,许多研究使用简单的任务来研究人类是如何做出决策的。例如,一名研究参与者可能被要求玩两台奖金不同的老虎机。在实验过程中,参与者将了解到哪台老虎机赚的钱更多,并相应地调整自己的行为。解决这些任务的一般学习框架被称为强化学习,因为行为会被决策产生的奖励结果所强化。

然而,单独的强化学习框架并不能充分描述在更大和更复杂的任务中的决策。2015年,谷歌旗下的人工智能公司DeepMind开发了一种名为Deep Q Network (DQN)的复杂人工智能算法,它可以学会以人类或超人的水平玩数十种雅达利电子游戏。

DQN结合了经典的强化学习框架和另一个最近的进步,称为卷积神经网络。卷积神经网络充当一个感知系统,它学习检测雅达利像素空间(游戏屏幕)中的视觉特征,这些视觉特征可以预测奖励(得分)。这使得DQN能够通过查看游戏中的像素来了解在给定情况下应该采取什么行动。重要的是,游戏规则并没有被编程到DQN代理中;它必须通过反复试验自己了解游戏是如何进行的,因为当代理人得分时(伴随着导致得分的行动),好的决策就会得到积极的强化。

在这项研究中,DQN被训练在雅达利电子游戏Pong、太空入侵者和耐力(一种赛车游戏)上,然后它的人工神经元被用来预测人类参与者在玩游戏时的行为和大脑活动的功能性磁共振成像大脑扫描。特别是,研究人员发现,可以使用DQN特征来建模与感知和视觉有关的两个大脑区域的大脑活动,即背侧视觉通路和后顶叶皮层。

在所有的游戏中,DQN必须学会如何像人类一样从大量的视觉输入中挑选出相关的功能。它必须在所谓的状态空间中格式化这些相关信息,这是一种表示游戏当前状态的紧凑方式。例如,在乒乓游戏中,研究人员发现,DQN代码中的状态空间代表了球和拍子的空间位置;它忽略了屏幕顶部的背景颜色和比赛比分等功能。这与人类大脑在背侧视觉通路中表现游戏的方式非常相似。背侧视觉通路是大脑的一部分,负责识别物体在空间中的位置,并指导与这些物体相关的行动。

在游戏《Enduro》中,玩家尽可能快地驾驶汽车,并试图避开其他汽车。在开车的过程中,天空的颜色会从白天到晚上发生变化。玩游戏的人很容易忽略这些参数,因为它们与实际游戏无关,就像我们在开车时学会忽略天空中的云一样。但人工智能网络必须知道,天空颜色的变化对驾驶没有影响。

研究人员发现,DQN中忽略这些不相干的视觉特征的特征更好地解释了在玩游戏的志愿者中看到的大脑活动模式。后顶叶皮层,大脑中连接感知和运动的部分。在《太空入侵者》中也发现了类似的结果。

虽然研究人员发现了DQN与人脑的相似之处,但两者并不完全相同。

"克罗斯说,DQN需要几天不间断地玩才能学会玩这些游戏,但人类可以在几分钟内学会。"为什么人类大脑在开车时很容易弄清楚相关特征,而人工智能却很难弄清楚?回答这个问题对人工智能研究人员来说是一个巨大的挑战。这对于AI来说很困难,因为随着背景颜色的改变,它的视觉输入也会发生巨大的变化。像素空间中的数字。DQN需要大量的训练来了解两种像素空间上截然不同的情况实际上在你应该做的概念上是相似的

另一方面,克罗斯补充说,人类大脑在其发育过程中形成了学习为日常任务挑选最重要信息的能力。他说,尤其是背侧视觉通路,这是我们感兴趣的主要区域,它能够独立于物体的颜色快速定位物体。"此外,大脑以某种方式编码了物理学的常识性概念以及物体的典型运动方式,这使得人类在很少训练的情况下就能很好地完成各种各样的任务。所有这些都是DQN."从头开始学习的

近年来,其他研究也发现了大脑和深度神经网络之间的相似之处,但这些研究大多聚焦于物体识别,而不是主动决策。本研究为研究复杂决策任务中的行为和大脑活动引入了一个新的框架,该框架可能比以往在该领域使用的任务更能代表日常生活。

这篇论文名为",使用深度强化学习揭示了大脑如何在高维环境中编码抽象状态空间表示。除了Cross和Doherty,其他合著者还有神经科学博士后研究员Jeff Cockburn和计算与数学科学教授Yisong Yue。资金由国家药物滥用研究所、国家心理健康研究所和加州理工学院社会决策神经生物学Conte中心提供。

新闻旨在传播有益信息,英文原版地址:https://www.caltech.edu/about/news/neural-networks-playing-video-games-teach-us-about-our-own-brains