使用生成式 AI 改进软件测试

Decorative image of a laptop floating among abstract, grid-like charts and objects. Kalyan Veeramachaneni, Andrew Montanez, and Neha Patki stand together outside for a photo.

生成式人工智能因其创建文本和图像的能力而受到广泛关注。但这些媒体只代表了当今社会中激增的数据的一小部分。每当患者通过医疗系统、风暴影响航班或人员与软件应用程序交互时，都会生成数据。

使用生成式 AI 围绕这些场景创建逼真的合成数据可以帮助组织更有效地治疗患者、重新安排飞机路线或改进软件平台，尤其是在真实世界数据有限或敏感的情况下。

在过去的三年里，麻省理工学院的衍生公司DataCebo提供了一个名为Synthetic Data Vault的生成式软件系统，以帮助组织创建合成数据来测试软件应用程序和训练机器学习模型。

合成数据保险库（SDV）的下载量已超过 100 万次，超过 10,000 名数据科学家使用开源库生成合成表格数据。创始人 Kalyan Veeramachaneni 和校友 Neha Patki ’15， SM ’16 认为，公司的成功归功于 SDV 彻底改变软件测试的能力。

SDV 走红

2016 年，Veeramachaneni 在数据到 AI 实验室的小组推出了一套开源生成式 AI 工具，以帮助组织创建与真实数据的统计属性相匹配的合成数据。

公司可以在程序中使用合成数据而不是敏感信息，同时仍保留数据点之间的统计关系。公司还可以使用合成数据通过模拟来运行新软件，以了解其性能，然后再向公众发布。

Veeramachaneni的团队遇到了这个问题，因为它正在与希望共享其数据进行研究的公司合作。

“麻省理工学院可以帮助你看到所有这些不同的用例，”Patki解释道。“你与金融公司和医疗保健公司合作，所有这些项目都有助于制定跨行业的解决方案。

2020 年，研究人员创立了 DataCebo，为大型组织构建更多 SDV 功能。从那时起，用例就令人印象深刻，因为它们种类繁多。

例如，借助DataCebo的新飞行模拟器，航空公司可以仅使用历史数据无法实现的方式计划罕见的天气事件。在另一个应用中，SDV 用户综合了医疗记录，以预测囊性纤维化患者的健康结果。来自挪威的一个团队最近使用 SDV 创建了合成学生数据，以评估各种招生政策是否精英化且没有偏见。

2021 年，数据科学平台 Kaggle 举办了一场数据科学家竞赛，该竞赛使用 SDV 创建合成数据集，以避免使用专有数据。大约 30,000 名数据科学家参与其中，根据公司的真实数据构建解决方案并预测结果。

随着DataCebo的发展，它一直忠于其麻省理工学院的根基：公司目前的所有员工都是麻省理工学院的校友。

增压软件测试

尽管他们的开源工具被用于各种用例，但该公司专注于提高其在软件测试方面的吸引力。

“你需要数据来测试这些软件应用程序，”Veeramachaneni说。“传统上，开发人员手动编写脚本来创建合成数据。借助使用 SDV 创建的生成模型，您可以从收集的数据样本中学习，然后对大量合成数据（与真实数据具有相同的属性）进行采样，或者创建特定场景和边缘案例，并使用这些数据来测试您的应用程序。

例如，如果一家银行想要测试一个程序，该程序旨在拒绝来自没有钱的账户的转账，它必须模拟多个账户同时进行交易。使用手动创建的数据执行此操作将花费大量时间。借助DataCebo的生成模型，客户可以创建他们想要测试的任何边缘案例。

“对于行业来说，拥有某种敏感数据是很常见的，”Patki说。“通常，当你在一个有敏感数据的领域时，你要处理的是法规，即使没有法律法规，也要努力了解谁在什么时候可以访问什么，这符合公司的最大利益。因此，从隐私的角度来看，合成数据总是更好。

缩放合成数据

Veeramachaneni认为，DataCebo正在推进所谓的合成企业数据领域，即从大公司软件应用程序上的用户行为生成的数据。

“与语言数据不同，这种企业数据很复杂，而且没有普遍可用的数据，”Veeramachaneni说。“当人们使用我们公开可用的软件并报告是否适用于某种模式时，我们会学到很多这些独特的模式，这使我们能够改进我们的算法。从一个角度来看，我们正在构建这些复杂模式的语料库，这些语料库对于语言和图像来说是现成的。”

DataCebo最近还发布了一些功能，以提高SDV的实用性，包括评估生成数据的“真实性”的工具，称为SDMetrics库，以及一种称为SDGym的比较模型性能的方法。

“这是为了确保组织信任这些新数据，”Veeramachaneni说。“[我们的工具提供]可编程的合成数据，这意味着我们允许企业插入他们的特定洞察力和直觉，以建立更透明的模型。

随着各行各业的公司争先恐后地采用人工智能和其他数据科学工具，DataCebo最终将以一种更加透明和负责任的方式帮助他们做到这一点。

“在接下来的几年里，来自生成模型的合成数据将改变所有数据工作，”Veeramachaneni说。“我们相信，90%的企业运营都可以用合成数据来完成。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2024/using-generative-ai-improve-software-testing-datacebo-0305