从物理学到生成式 AI：用于高级模式生成的 AI 模型

Conceptual image of an open box that has sparks flying out on a black background. The lid of the box resembles that of a laptop computer screen.

生成式人工智能目前在流行话语中处于顶峰，它承诺了一个简单转化为复杂世界——一个简单的分布演变成图像、声音或文本的复杂模式，使人工变得惊人地真实。

想象力的领域不再仅仅是抽象的，因为麻省理工学院计算机科学和人工智能实验室（CSAIL）的研究人员已经将创新的人工智能模型带入了生活。他们的新技术整合了两个看似无关的物理定律，支撑着迄今为止表现最好的生成模型：扩散，通常说明元素的随机运动，如热量渗透到房间或气体膨胀到太空，以及泊松流，它借鉴了控制电荷活动的原理。

这种和谐的融合在生成新图像方面具有卓越的性能，超过了现有的最先进的模型。自问世以来，“泊松流生成模型++”（PFGM++）在各个领域都有潜在的应用，从抗体和RNA序列生成到音频生产和图形生成。

该模型可以生成复杂的模式，例如创建逼真的图像或模仿现实世界的过程。PFGM++建立在PFGM的基础上，PFGM是团队前一年的工作。PFGM从称为“泊松”方程的数学方程背后的方法中获取灵感，然后将其应用于模型尝试从中学习的数据。为此，该团队使用了一个聪明的技巧：他们为模型的“空间”增加了一个额外的维度，有点像从2D草图到3D模型。这个额外的维度提供了更多的操作空间，将数据放置在更大的上下文中，并帮助人们在生成新样本时从各个方向接近数据。

“PFGM++是可以通过物理学家和计算机科学家之间的跨学科合作推动的人工智能进步的一个例子，”麻省理工学院核科学实验室理论物理中心的理论粒子物理学家Jesse Thaler说，他是国家科学基金会人工智能和基本交互人工智能研究所（NSF AI IAIFI）的主任，谁没有参与这项工作。“近年来，基于人工智能的生成模型产生了许多令人瞠目结舌的结果，从逼真的图像到清晰的文本流。值得注意的是，一些最强大的生成模型是基于经过时间考验的物理学概念，例如对称性和热力学。PFGM++从基础物理学中汲取了一个世纪以来的想法 – 时空可能存在额外的维度 – 并将其转变为生成合成但现实数据集的强大而强大的工具。我很高兴看到’物理智能’正在改变人工智能领域的无数方式。

PFGM的潜在机制并不像听起来那么复杂。研究人员将数据点与维度扩展世界中放置在平面上的微小电荷进行了比较。这些电荷产生一个“电场”，电荷希望沿着场线向上移动到一个额外的维度，从而在一个巨大的假想半球上形成均匀分布。生成过程就像倒带一样：从半球上均匀分布的一组电荷开始，沿着电线路跟踪它们返回平面的旅程，它们对齐以匹配原始数据分布。这个有趣的过程使神经模型能够学习电场，并生成反映原始数据的新数据。

PFGM++模型将PFGM中的电场扩展到复杂的高维框架。当你不断扩展这些维度时，会发生一些意想不到的事情——模型开始类似于另一类重要的模型，即扩散模型。这项工作就是为了找到适当的平衡。PFGM和扩散模型位于光谱的两端：一个坚固但处理复杂，另一个更简单但不太坚固。PFGM++ 模型提供了一个最佳点，在稳健性和易用性之间取得了平衡。这项创新为更高效的图像和图案生成铺平了道路，标志着技术向前迈出了重要一步。除了可调节的尺寸外，研究人员还提出了一种新的训练方法，可以更有效地学习电场。

为了使这一理论栩栩如生，该团队解决了一对微分方程，详细说明了这些电荷在电场中的运动。他们使用Frechet Inception Distance（FID）分数评估性能，这是一个被广泛接受的指标，用于评估模型生成的图像与真实图像的质量。PFGM++进一步展示了更高的抗误差能力和对微分方程中步长的鲁棒性。

展望未来，他们的目标是完善模型的某些方面，特别是通过分析神经网络估计误差的行为，以系统的方式识别为特定数据、架构和任务量身定制的 D 的“最佳点”值。他们还计划将PFGM++应用于现代大规模文本到图像/文本到视频生成。

“扩散模型已成为生成AI革命背后的关键驱动力，”OpenAI的研究科学家杨松说。“PFGM++提供了扩散模型的强大概括，允许用户通过提高图像生成对扰动和学习错误的鲁棒性来生成更高质量的图像。此外，PFGM++揭示了静电和扩散模型之间的惊人联系，为扩散模型研究提供了新的理论见解。

“泊松流生成模型不仅依赖于基于静电的优雅物理启发公式，而且还在实践中提供了最先进的生成建模性能，”NVIDIA 高级研究科学家 Karsten Kreis 说，他没有参与这项工作。“它们甚至超过了目前主导文献的流行扩散模型。这使它们成为一个非常强大的生成建模工具，我设想它们在不同领域的应用，从数字内容创建到生成药物发现。更一般地说，我相信探索更多受物理学启发的生成建模框架对未来有很大的希望，而泊松流生成模型只是一个开始。

关于这项工作的论文的作者包括麻省理工学院的三名研究生：电气工程与计算机科学系（EECS）和CSAIL的Yilun Xu，物理系和NSF AI IAIFI的Ziming Liu，EECS和CSAIL的Shangyuan Tong，以及Google高级研究科学家Yonglong Tian PhD ‘ 23。麻省理工学院教授Max Tegmark和Tommi Jaakkola为这项研究提供了建议。

该团队得到了MIT-DSTA新加坡合作，MIT-IBM Watson AI Lab，国家科学基金会拨款，凯西和家庭基金会，基础问题研究所，Rothberg家庭认知科学基金和ML for Pharmaceutical Discovery and Synthesis Consortium的支持。他们的工作在今年夏天的机器学习国际会议上进行了介绍。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2023/physics-generative-ai-ai-model-advanced-pattern-generation-0927