合成图像为 AI 训练效率树立了新标杆

Illustration of a disembodied brain with glowing tentacles reaching out to different squares of images at the ends

数据是新的土壤，在这片肥沃的新土地上，麻省理工学院的研究人员种植的不仅仅是像素。通过使用合成图像来训练机器学习模型，一组科学家最近超越了传统的“真实图像”训练方法获得的结果。

该方法的核心是一个名为 StableRep 的系统，它不仅使用任何合成图像;它通过超流行的文本到图像模型（如 Stable Diffusion）生成它们。这就像用文字创造世界一样。

那么 StableRep 的秘诀是什么呢？一种称为“多正对比学习”的策略。

“我们正在教模型通过上下文和方差来更多地了解高级概念，而不仅仅是向它提供数据，”麻省理工学院电气工程博士生、麻省理工学院计算机科学与人工智能实验室（CSAIL）的附属机构、首席研究员Lijie Fan说。“当多个图像，都是从同一个文本生成的，都被视为对同一基础事物的描述时，模型会更深入地研究图像背后的概念，比如物体，而不仅仅是它们的像素。

这种方法将从相同的文本提示中生成的多个图像视为正对，在训练期间提供额外的信息，不仅增加了更多的多样性，而且为视觉系统指定了哪些图像是相似的，哪些是不同的。值得注意的是，StableRep 在广泛的数据集中超越了在真实图像上训练的顶级模型（如 SimCLR 和 CLIP）的实力。

“虽然 StableRep 有助于缓解机器学习中数据采集的挑战，但它也迎来了迈向 AI 训练技术新时代的大步前进。根据命令生成高质量、多样化合成图像的能力有助于减少繁琐的开支和资源，“范说。

数据收集的过程从来都不是一帆风顺的。早在 1990 年代，研究人员就不得不手动拍摄照片来组装物体和面部的数据集。2000 年代，人们在互联网上搜索数据。然而，与现实世界的场景相比，这些未经整理的原始数据往往包含差异，并反映了社会偏见，呈现出对现实的扭曲看法。通过人工干预清理数据集的任务不仅成本高昂，而且极具挑战性。但是，想象一下，如果可以将这种艰巨的数据收集提炼成像用自然语言发出命令这样简单的事情。

StableRep 胜利的一个关键方面是调整了生成模型中的“引导比例”，这确保了合成图像的多样性和保真度之间的微妙平衡。当微调时，用于训练这些自监督模型的合成图像被发现与真实图像一样有效，甚至更有效。

更进一步，语言监督被添加到组合中，创造了一个增强的变体：StableRep+。当使用 2000 万张合成图像进行训练时，StableRep+ 不仅获得了卓越的准确性，而且与使用 5000 万张真实图像训练的 CLIP 模型相比，还显示出显着的效率。

然而，前方的道路并非没有坑坑洼洼。研究人员坦率地解决了几个局限性，包括当前图像生成的缓慢速度、文本提示和生成的图像之间的语义不匹配、偏见的潜在放大以及图像归因的复杂性，所有这些都是解决未来进步的必要条件。另一个问题是 StableRep 需要首先在大规模真实数据上训练生成模型。该团队承认，从真实数据开始仍然是必要的;但是，当您拥有良好的生成模型时，可以将其重新用于新任务，例如训练识别模型和视觉表示。

该团队指出，他们还没有绕过从真实数据开始的需求;只是一旦你有了一个好的生成模型，你就可以将其重新用于新任务，比如训练识别模型和视觉表示。

虽然 StableRep 通过减少对大量真实图像集合的依赖提供了一个很好的解决方案，但它突出了对用于这些文本到图像模型的未策划数据中隐藏的偏见的担忧。文本提示的选择是图像合成过程中不可或缺的一部分，并非完全没有偏见，“这表明细致的文本选择或可能的人工策展的重要作用，”Fan说。

“使用最新的文本到图像模型，我们获得了对图像生成的前所未有的控制，允许从单个文本输入中获得各种视觉效果。这在效率和多功能性方面超越了现实世界的图像收集。事实证明，它在专业任务中特别有用，例如在长尾识别中平衡图像多样性，为使用真实图像进行训练提供了实用的补充，“Fan说。“我们的工作标志着视觉学习向前迈进了一步，朝着提供具有成本效益的培训替代方案的目标迈进，同时强调需要不断改进数据质量和综合。”

“长期以来，生成式模型学习的一个梦想是能够生成对判别模型训练有用的数据，”谷歌DeepMind研究员和多伦多大学计算机科学教授David Fleet说，他没有参与这篇论文。“虽然我们已经看到了一些生命的迹象，但这个梦想一直难以捉摸，尤其是在高分辨率图像等大型复杂领域。据我所知，这篇论文首次提供了令人信服的证据，证明梦想正在成为现实。他们表明，从大量合成图像数据中进行对比学习可以产生比从真实数据中大规模学习的表征更好的表征，并有可能改善无数下游视觉任务。

Fan 与 Yonglong Tian PhD ’22 一起担任该论文的主要作者，以及麻省理工学院电气工程和计算机科学副教授和 CSAIL 首席研究员 Phillip Isola;谷歌研究员、OpenAI技术人员常慧文;以及谷歌员工研究科学家迪利普·克里希南（Dilip Krishnan）。该团队将在新奥尔良举行的 2023 年神经信息处理系统会议（NeurIPS）上展示 StableRep。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2023/synthetic-imagery-sets-new-bar-ai-training-efficiency-1120