Q&A：如何在没有足够的数据时训练 AI

人工智能擅长对信息进行分类和检测模式或趋势。但这些机器学习算法需要首先用大量数据进行训练。

随着研究人员探索人工智能的潜在应用，他们发现了人工智能可能真正有用的场景——例如分析X射线图像数据以寻找罕见情况的证据，或者检测商业渔船上捕获的稀有鱼类——但没有足够的数据来准确训练算法。

华盛顿大学电气、计算机和工程学教授Jenq-Neng Hwang专门研究这些问题。例如，Hwang和他的团队开发了一种方法，可以教人工智能监控婴儿一天中可以摆出多少个不同的姿势。婴儿的训练数据集有限，这意味着研究人员必须创建一个独特的管道，以使他们的算法准确和有用。该团队最近在IEEE/CVF计算机视觉应用冬季会议上发表了这项工作。

UW News 采访了 Hwang，了解了项目细节以及该团队正在解决的其他类似具有挑战性的领域。

为什么开发一种跟踪婴儿姿势的算法很重要？

Jenq-Neng Hwang：我们开始与威斯康星大学医学院和韩国电子电信研究所的人工智能实验室合作。该项目的目标是试图帮助有自闭症病史的家庭了解他们的孩子是否也可能患有自闭症。9个月以下的婴儿还没有真正的语言技能，所以很难看出他们是否患有自闭症。研究人员开发了一项名为艾伯塔省婴儿运动量表的测试，该量表对婴儿可以做的各种姿势进行分类：如果婴儿可以做到这一点，他们将获得两分;如果他们能做到这一点，他们就会得到三分;等等。然后你把所有的点加起来，如果婴儿超过某个阈值，他们可能没有自闭症。

但是要进行此测试，您需要医生来观察所有不同的姿势。这成为一个非常乏味的过程，因为有时三四个小时后，我们仍然没有看到婴儿做特定的姿势。也许婴儿可以做到，但那一刻他们不想。一种解决方案可能是使用人工智能。父母家里经常有婴儿监视器。婴儿监视器可以使用人工智能来连续、一致地跟踪婴儿在一天中所做的各种姿势。

为什么人工智能非常适合这项任务？

JNH：我的背景是研究传统图像处理和计算机视觉。我们试图教计算机能够从照片或视频中找出人类的姿势，但问题是有太多的变化。例如，即使是同一个人穿着不同的服装，对于传统的图像处理来说，要在每张照片上正确识别该人的肘部也是一项具有挑战性的任务。

但人工智能让这一切变得容易得多。这些模型可以学习。例如，您可以使用各种动作捕捉序列来训练机器学习模型，这些序列显示所有不同类型的人。这些序列可以用相应的 3D 姿势进行注释。然后，这个模型可以学习以前所未有的序列输出一个人的姿势的3D模型。

但在这种情况下，没有很多婴儿的动作捕捉序列也具有 3D 姿势注释，您可以使用这些注释来训练机器学习模型。你做了什么？

JNH：出于隐私原因，我们没有很多婴儿视频的3D姿势注释来训练机器学习模型。创建婴儿正在执行我们需要的所有可能潜在姿势的数据集也很困难。我们的数据集太小，这意味着用它们训练的模型无法估计可靠的姿势。

但是我们确实有很多带注释的 3D 运动序列。因此，我们开发了这个管道。

首先，我们利用普通人的大量3D动作序列来训练一个通用的3D姿势生成式AI模型，该模型类似于ChatGPT和其他GPT-4类型的大型语言模型中使用的模型。

然后，我们用我们非常有限的带注释的婴儿运动序列数据集微调了我们的通用模型。然后，通用模型可以适应小型数据集并产生高质量的结果。

还有其他这样的任务吗：对人工智能有好处，但没有很多数据来训练算法？

JNH：在许多类型的场景中，我们没有足够的信息来训练模型。一个例子是通过X射线诊断的罕见疾病。这种疾病非常罕见，以至于我们没有足够的来自该疾病患者的X射线图像来训练模型。但我们确实有很多来自健康患者的X光片。因此，我们可以再次使用生成式AI生成相应的无病合成X射线图像，然后可以将其与患病图像进行比较，以识别疾病区域以进行进一步诊断。

自动驾驶是另一个例子。有太多你无法创造的真实事件。例如，假设您正在开车，几片树叶在车前吹动。如果你使用自动驾驶，汽车可能会认为有什么不对劲并猛踩刹车，因为汽车以前从未见过这种情况。这可能会导致事故。

我们称这些事件为“长尾”事件，这意味着它们不太可能发生。但在日常生活中，我们总是看到这样随机的事情。在我们弄清楚如何训练自动驾驶系统来处理这些类型的事件之前，自动驾驶是没有用的。我们的团队正在通过将来自常规相机的数据与雷达信息相结合来解决这个问题。摄像头和雷达会持续检查彼此的决策，这可以帮助机器学习算法理解正在发生的事情。

婴儿姿势论文的其他合著者是威斯康星大学电气和计算机工程系的研究助理Zhuoran 周;江忠宇和杨成彦，威斯康星大学电气与计算机工程系博士生;Wenhao Chai，威斯康星大学电气和计算机工程专业硕士生;以及哥本哈根大学博士生李磊。这项研究由韩国电子和电信研究所、国家海洋和大气管理局和思科研究院资助。

欲了解更多信息，请联系 Hwang [email protected]。

新闻旨在传播有益信息，英文版原文来自https://www.washington.edu/news/2024/03/28/train-ai-machine-learning-when-you-dont-have-enough-data/