Faces, Bodies, Spiders, and Radios: How the Brain Represents Visual Objects

当柏拉图开始定义是什么使人成为人类时，他确定了两个主要特征:我们没有羽毛，我们是两足动物(用两条腿直立行走)。铂的特性描述可能不能涵盖人类的所有特征，但它将一个物体还原为其基本特征提供了一个被称为主成分分析的技术示例。

现在，加州理工学院的研究人员结合了机器学习和神经科学的工具，发现大脑使用一个数学系统来根据视觉物体的主要成分来组织它们。这项研究表明，大脑中有一个代表不同物体的细胞的二维地图。图中每个单元格的位置由其首选对象的主成分(或特征)决定;例如，对圆形、弯曲的物体如脸和苹果做出反应的细胞被组合在一起，而对尖锐物体如直升机或椅子做出反应的细胞则组成另一组。

这项研究是在生物学教授、天桥及陈chrissy系统神经科学中心主任、霍华德休斯医学研究所研究员曹女士(BS '96)的实验室进行的。一篇描述这项研究的论文发表在6月3日的《自然》杂志上。

在过去的15年里，我们的实验室一直在研究灵长类动物大脑颞叶中的一个特殊网络，这个网络专门用来处理人脸。我们把这个网络叫做face patch网络。从一开始，我们就有这样一个问题:理解这个面部网络是否能教会我们如何识别物体。我一直梦想它会出现，而现在这一想法以一种令人吃惊的方式被证明是正确的。结果表明，人脸patch网络有多个兄弟节点，它们共同构成一个有序的对象空间映射。"曹说:“所以，面部的斑块是一个更大的拼图的一部分，我们现在可以开始看到整个拼图是如何拼在一起的。”

大脑的颞下皮层是识别物体的关键中心。大脑皮层中不同的区域或者叫做"patches"，对不同的事物进行编码。2003年，曹和她的合作者发现有六个面部补丁;还有对身体、场景和颜色进行编码的补丁。但是这些被充分研究过的岛屿仅仅构成了IT皮层的一部分，而位于它们之间的脑细胞的功能还没有被很好地了解。

曹氏实验室的博士后学者鲍平磊(音译)想了解IT皮层的这些未知区域。在研究非人灵长类动物时，鲍首先刺激了大脑皮层的一个区域，这个区域不属于之前定义的斑块，然后用功能性磁共振成像(fMRI)测量了它的其他部分对刺激的反应。在此过程中，他发现了一个新的网络:由刺激驱动的IT皮层的三个区域。他称这个网络为"陆地网络，因为它属于大脑皮层的一个未知区域。

为了确定新的网络对哪种物体做出反应，鲍教授向灵长类动物展示了数千个不同物体的图像，同时他测量了神经元的活动。活动在新的网络。他发现，神经元对一组似乎没有任何共同之处的物体有强烈的反应，除了一个奇怪的特征:它们都有薄薄的"突起。"也就是说，像蜘蛛、直升机和椅子这样尖锐的物体触发了新网络细胞的活动。像脸这样的圆形光滑物体在这个网络中几乎没有触发任何活动。

鲍开始用数学方法描述这些物品的共同之处。虽然一个人可以定性地描述使椅子形状与脸不同的基本可见特征，但他们不能将这些特征分解成数学参数。为了做到这一点，鲍使用了一种叫做深度网络的机器学习程序，这种程序被训练来对物体的图像进行分类。

鲍把他给这些灵长类动物看的数千张图片拍下来，并将它们通过一个深层网络进行传输。然后，他检查了深度网络的八个不同层次中单位的激活情况。因为每一层都有成千上万个单位，很难分辨出它们的发射模式。Bao决定使用主成分分析来确定驱动网络各层活动变化的基本参数。在其中一层中，鲍注意到一种奇怪的熟悉现象:其中一个主成分被尖锐的物体(如蜘蛛和直升机)强烈激活，而被面部抑制。这与鲍在早期的无人陆地网络中记录的细胞对目标的偏好完全吻合。

怎么解释这一巧合呢?一种观点认为，大脑皮层实际上可能被组织成一个物体空间的地图，x和y维是由深度网络计算出的前两个主要成分决定的。这个想法可以预测人脸、身体的存在，但没有人的陆地区域，因为他们喜欢的对象每个都整齐地落在深度网络计算出的对象空间的不同象限中。但其中一个象限的大脑中没有已知的对应物:粗短的物体，比如收音机或杯子。

一种示意图，显示由物体空间的前两个主要组成部分生成的物体地图。图来源:Bao等，Nature 2020 Image Lightbox

一个示意图，显示物体空间的前两个主要组成部分生成的物体地图。作者:Bao等人，《自然2020》下载完整图片

鲍决定给灵长类动物展示属于这个"missing"象限的物体的图像，同时监测它们IT皮质的活动。令人惊讶的是，正如模型所预测的那样，他发现大脑皮层的一个区域网络只对粗壮的物体有反应。这意味着深度网络已经成功地预测了一组之前未知的大脑区域的存在。

为什么每个象限都由多个区域组成的网络来表示?早些时候，tsao的实验室发现，大脑皮层中不同的面部区域编码了越来越抽象的面部表情。鲍发现，他发现的两个网络显示出同样的特性:大脑较前区域的细胞对不同角度的物体做出反应，而较后区域的细胞只对特定角度的物体做出反应。这表明颞叶包含了对象空间地图的多个副本，每一个都比前一个更抽象。

最后，研究小组想知道这张地图到底有多完整。当灵长类动物看到物体的图像时，他们测量了组成地图的四个网络中的每个网络的大脑活动，然后解码大脑信号以确定灵长类动物看到的是什么。该模型能够准确地重建灵长类动物看到的图像。

我们现在知道了哪些特征对物体识别来说是重要的，"说。在生物视觉系统和深度网络中观察到的重要特征之间的相似性表明，这两个系统在物体识别方面可能有相似的计算机制。事实上，据我所知，这是第一次，一个深度网络对大脑的一个以前不知道的特征做出了预测，并被证明是正确的。我认为我们很快就能弄清灵长类动物的大脑是如何解决物体识别问题的

这篇论文的题目是《灵长类动物颞下皮层的物体空间图》。"除了包和曹，合著者是博士后学者梁社和研究生梅森麦吉尔。这项研究由美国国立卫生研究院、霍华德·休斯医学研究所、加州理工学院天桥和克丽丝·陈神经科学研究所资助。

新闻旨在传播有益信息，英文原版地址：https://www.caltech.edu/about/news/faces-bodies-spiders-and-radios-how-brain-represents-visual-objects