分类
麻省理工学院新闻

对称性如何帮助机器学习

A stylized brain illustration is superimposed over a diagonal green arrow that is pointing upward. The background is light pink with a grid pattern.

2021 年底,麻省理工学院电气工程与计算机科学系 (EECS) 的博士生、计算机科学与人工智能实验室 (CSAIL) 的附属机构 Behrooz Tahmasebi 正在上一门关于微分方程的数学课程,当时一线灵感袭来。在那堂课上,他第一次学习了110年前由德国数学家赫尔曼·韦尔(Hermann Weyl)制定的外尔定律。Tahmasebi意识到这可能与他当时正在解决的计算机科学问题有一定的相关性,尽管从表面上看,这种联系充其量是微不足道的。他说,外尔定律提供了一个公式,可以测量鼓头或吉他弦的基本频率中包含的频谱信息或数据的复杂性。

与此同时,Tahmasebi正在考虑测量神经网络输入数据的复杂性,想知道是否可以通过考虑数据集固有的一些对称性来降低这种复杂性。反过来,这种减少可以促进并加快机器学习过程。

外尔定律是在机器学习热潮之前大约一个世纪构思的,传统上被应用于非常不同的物理情况,例如与弦的振动或加热物体发出的电磁(黑体)辐射光谱有关的情况。尽管如此,Tahmasebi认为,该定律的定制版本可能有助于解决他所追求的机器学习问题。如果这种方法成功,回报可能是可观的。

他与他的导师斯蒂芬妮·杰格尔卡(Stefanie Jegelka)进行了交谈,后者是EECS的副教授,也是CSAIL和麻省理工学院数据、系统和社会研究所的附属机构,她认为这个想法绝对值得研究。正如Tahmasebi所看到的,Weyl定律与衡量数据的复杂性有关,这个项目也是如此。但是外尔定律,就其原始形式而言,对对称性只字未提。

他和Jegelka现在已经成功地修改了Weyl定律,以便将对称性可以考虑在数据集复杂性的评估中。“据我所知,”Tahmasebi说,“这是第一次使用Weyl定律来确定机器学习如何通过对称性来增强。

他和 Jegelka 撰写的论文在 2023 年 12 月的神经信息处理系统会议上发表时获得了“聚光灯”称号,该会议被广泛认为是世界顶级的机器学习会议。

约翰·霍普金斯大学(Johns Hopkins University)应用数学家索莱达·维拉尔(Soledad Villar)评论说,这项工作“表明,满足问题对称性的模型不仅是正确的,而且可以使用少量的训练点产生误差较小的预测。[这]在科学领域尤为重要,例如计算化学,在这些领域,训练数据可能很稀缺。

在他们的论文中,Tahmasebi和Jegelka探讨了对称性或所谓的“不变性”可以使机器学习受益的方式。例如,假设特定计算机运行的目标是挑选出包含数字 3 的每个图像。如果算法能够识别 3 个,无论它放置在盒子的哪个位置——无论它正好在中心还是偏向侧面——以及它是正面朝上、倒置还是以随机角度定向,那么这项任务就会容易得多,而且速度会快得多。配备后一种功能的算法可以利用平移和旋转的对称性,这意味着 3 或任何其他对象本身不会通过改变其位置或绕任意轴旋转来改变。据说它对这些转变是不变的。同样的逻辑可以应用于负责识别狗或猫的算法。有人可能会说,狗就是狗,不管它如何嵌入到图像中。

作者解释说,整个练习的重点是利用数据集的内在对称性,以降低机器学习任务的复杂性。反过来,这会导致学习所需的数据量减少。具体来说,这项新工作回答了这样一个问题:如果数据包含对称性,那么训练机器学习模型所需的数据会减少多少?

有两种方法可以通过利用存在的对称性来获得收益或收益。第一个与要观察的样本的大小有关。例如,让我们想象一下,您需要分析具有镜像对称性的图像——右侧是左侧的精确复制品或镜像。在这种情况下,您不必查看每个像素;您可以从一半的图像中获取所需的所有信息——这是两倍的改进。另一方面,如果图像可以分成 10 个相同的部分,则可以获得 10 倍的改进。这种助推效果是线性的。

再举一个例子,假设您正在筛选数据集,试图找到具有七种不同颜色(黑色、蓝色、绿色、紫色、红色、白色和黄色)的块序列。如果您不关心块的排列顺序,您的工作就会变得容易得多。如果顺序很重要,将有 5,040 种不同的组合可供寻找。但是,如果你所关心的只是所有七种颜色都出现的块序列,那么你已经将你正在搜索的事物或序列的数量从5,040个减少到只有一个。

Tahmasebi和Jegelka发现,有可能实现一种不同的增益 – 一种指数级的增益 – 可以通过在许多维度上运行的对称性来收获。这种优势与学习任务的复杂性随着数据空间的维度呈指数增长的概念有关。因此,利用多维对称性可以产生不成比例的大回报。“这是一项新的贡献,它基本上告诉我们,更高维度的对称性更重要,因为它们可以给我们带来指数级的收益,”Tahmasebi说。

他与 Jegelka 共同撰写的 NeurIPS 2023 论文包含两个在数学上被证明的定理。“第一个定理表明,使用我们提供的通用算法可以提高样本复杂性,”Tahmasebi说。他补充说,第二个定理是对第一个定理的补充,“表明这是你能得到的最好的收益;没有其他可以实现的。

他和Jegelka提供了一个公式,可以预测在给定应用中可以从特定对称性中获得的增益。Tahmasebi指出,这个公式的一个优点是它的普遍性。“它适用于任何对称性和任何输入空间。”它不仅适用于今天已知的对称性,而且将来也可以应用于尚未发现的对称性。后一种前景并不牵强,因为寻找新的对称性长期以来一直是物理学的主要推动力。这表明,随着更多对称性的发现,Tahmasebi和Jegelka引入的方法只会随着时间的推移而变得更好。

以色列理工学院(Technion)和英伟达(NVIDIA)的计算机科学家哈盖·马龙(Haggai Maron)表示,该论文中提出的方法“与以前的相关工作有很大不同,采用几何透视并采用微分几何工具。这一理论贡献为新兴的“几何深度学习”子领域提供了数学支持,该子领域在图形学习、3D 数据等方面都有应用。这篇论文有助于建立理论基础,以指导这一快速扩展的研究领域的进一步发展。

新闻旨在传播有益信息,英文版原文来自https://news.mit.edu/2024/how-symmetry-can-aid-machine-learning-0205