分类
麻省理工学院新闻

使用生成式 AI 改进软件测试

Decorative image of a laptop floating among abstract, grid-like charts and objects.Kalyan Veeramachaneni, Andrew Montanez, and Neha Patki stand together outside for a photo.

生成式人工智能因其创建文本和图像的能力而受到广泛关注。但这些媒体只代表了当今社会中激增的数据的一小部分。每当患者通过医疗系统、风暴影响航班或人员与软件应用程序交互时,都会生成数据。

使用生成式 AI 围绕这些场景创建逼真的合成数据可以帮助组织更有效地治疗患者、重新安排飞机路线或改进软件平台,尤其是在真实世界数据有限或敏感的情况下。

在过去的三年里,麻省理工学院的衍生公司DataCebo提供了一个名为Synthetic Data Vault的生成式软件系统,以帮助组织创建合成数据来测试软件应用程序和训练机器学习模型。

合成数据保险库 (SDV) 的下载量已超过 100 万次,超过 10,000 名数据科学家使用开源库生成合成表格数据。创始人 Kalyan Veeramachaneni 和校友 Neha Patki ’15, SM ’16 认为,公司的成功归功于 SDV 彻底改变软件测试的能力。

SDV 走红

2016 年,Veeramachaneni 在数据到 AI 实验室的小组推出了一套开源生成式 AI 工具,以帮助组织创建与真实数据的统计属性相匹配的合成数据。

公司可以在程序中使用合成数据而不是敏感信息,同时仍保留数据点之间的统计关系。公司还可以使用合成数据通过模拟来运行新软件,以了解其性能,然后再向公众发布。

Veeramachaneni的团队遇到了这个问题,因为它正在与希望共享其数据进行研究的公司合作。

“麻省理工学院可以帮助你看到所有这些不同的用例,”Patki解释道。“你与金融公司和医疗保健公司合作,所有这些项目都有助于制定跨行业的解决方案。

2020 年,研究人员创立了 DataCebo,为大型组织构建更多 SDV 功能。从那时起,用例就令人印象深刻,因为它们种类繁多。

例如,借助DataCebo的新飞行模拟器,航空公司可以仅使用历史数据无法实现的方式计划罕见的天气事件。在另一个应用中,SDV 用户综合了医疗记录,以预测囊性纤维化患者的健康结果。来自挪威的一个团队最近使用 SDV 创建了合成学生数据,以评估各种招生政策是否精英化且没有偏见。

2021 年,数据科学平台 Kaggle 举办了一场数据科学家竞赛,该竞赛使用 SDV 创建合成数据集,以避免使用专有数据。大约 30,000 名数据科学家参与其中,根据公司的真实数据构建解决方案并预测结果。

随着DataCebo的发展,它一直忠于其麻省理工学院的根基:公司目前的所有员工都是麻省理工学院的校友。

增压软件测试

尽管他们的开源工具被用于各种用例,但该公司专注于提高其在软件测试方面的吸引力。

“你需要数据来测试这些软件应用程序,”Veeramachaneni说。“传统上,开发人员手动编写脚本来创建合成数据。借助使用 SDV 创建的生成模型,您可以从收集的数据样本中学习,然后对大量合成数据(与真实数据具有相同的属性)进行采样,或者创建特定场景和边缘案例,并使用这些数据来测试您的应用程序。

例如,如果一家银行想要测试一个程序,该程序旨在拒绝来自没有钱的账户的转账,它必须模拟多个账户同时进行交易。使用手动创建的数据执行此操作将花费大量时间。借助DataCebo的生成模型,客户可以创建他们想要测试的任何边缘案例。

“对于行业来说,拥有某种敏感数据是很常见的,”Patki说。“通常,当你在一个有敏感数据的领域时,你要处理的是法规,即使没有法律法规,也要努力了解谁在什么时候可以访问什么,这符合公司的最大利益。因此,从隐私的角度来看,合成数据总是更好。

缩放合成数据

Veeramachaneni认为,DataCebo正在推进所谓的合成企业数据领域,即从大公司软件应用程序上的用户行为生成的数据。

“与语言数据不同,这种企业数据很复杂,而且没有普遍可用的数据,”Veeramachaneni说。“当人们使用我们公开可用的软件并报告是否适用于某种模式时,我们会学到很多这些独特的模式,这使我们能够改进我们的算法。从一个角度来看,我们正在构建这些复杂模式的语料库,这些语料库对于语言和图像来说是现成的。”

DataCebo最近还发布了一些功能,以提高SDV的实用性,包括评估生成数据的“真实性”的工具,称为SDMetrics库,以及一种称为SDGym的比较模型性能的方法。

“这是为了确保组织信任这些新数据,”Veeramachaneni说。“[我们的工具提供]可编程的合成数据,这意味着我们允许企业插入他们的特定洞察力和直觉,以建立更透明的模型。

随着各行各业的公司争先恐后地采用人工智能和其他数据科学工具,DataCebo最终将以一种更加透明和负责任的方式帮助他们做到这一点。

“在接下来的几年里,来自生成模型的合成数据将改变所有数据工作,”Veeramachaneni说。“我们相信,90%的企业运营都可以用合成数据来完成。

新闻旨在传播有益信息,英文版原文来自https://news.mit.edu/2024/using-generative-ai-improve-software-testing-datacebo-0305