分类
弗吉尼亚理工大学新闻

研究旨在提高制造业的数据质量,寻求“黄金数据”

如果人工智能(AI)是一辆汽车,那么数据就是燃料。但是,如果没有办法确保燃料中没有浪费怎么办?如何过滤这些燃料,以及如何将这些信息传达给消费者?

格拉多工业与系统工程系副教授金冉决心用高质量的数据为制造业工业互联网中的人工智能模型提供动力。他的研究由美国国家科学基金会资助,旨在实现三个主要目标:

  • 什么是高质量数据?它是如何定义的?
  • 不良数据的根本原因是什么?可以预防吗?
  • 是否有可以与其他制造流程和中心共享的“黄金”数据集?

“机器学习和人工智能模型的性能很大程度上取决于数据质量。目前,还没有系统的方式来定义和评估数据质量,“金说。“我们想知道:如果我们能够定义数据质量并确定导致数据质量差的原因,我们是否可以改进它?如果我们可以改进它,我们如何共享这些数据集以进一步改善人工智能开发?然后,我们计划生成一个黄金数据集,可以在不同的平台或系统中使用。

发人深思的东西

Jin 用烹饪火鸡来类比,以解释该项目提高数据质量的方法。正如为美味的火鸡定义定量措施可以更好地了解常见烹饪问题背后的潜在原因一样,该项目旨在定量定义和评估数据质量。

“火鸡是一道很普通的菜,但做饭可能很棘手,”金说。“如果我们评估一只好火鸡的美味程度,我们必须定义一系列衡量标准——无论是多汁、酥脆、咸味,还是具有烟熏味等特定风味。这基本上是第一步。

将这些因素转换为数据时,这可能包括数据的新鲜度、相关性或完整性。

一旦定义了理想火鸡的标记,第二步就是了解哪些不起作用。“为什么火鸡变干了?为什么味道不对劲?这可能是因为我们把它放在烤箱里太久了,或者调味料没有正确测量:这些都是火鸡产量低的潜在根本原因。“金先生说。

最后,金说他的研究目标是分享完美的火鸡食谱。广泛分享这一点可以确保每次都能获得酥脆、多汁、美味的火鸡——没有不必要的步骤、配料或浪费。在数据质量设置中,这转化为简化、相关和有用的数据,可以始终如一地为机器和制造系统提供信息,以做出正确的决策。

“我们想确定如何改进火鸡本身并优化有效工作的食谱,并生产出美味、完美煮熟的火鸡,可以在互联网上与其他厨师分享,”Jin说。“在数据方面,我们希望创建一个可以有效共享的数据集,用于人工智能开发目的,它有几个优点,如代表性、隐私保护和人工智能模型改进的有效性。”

映射结果

尽管在过去十年中,制造人工智能方法取得了进步,包括深度学习和神经网络的重大进步,但Jin指出,数据生成和质量已成为建模和决策绩效的主要障碍。

“人们越来越意识到整体建模和决策绩效的瓶颈在于数据生成和质量方面,”Jin说。“我们常用的一句话是’把垃圾放进去,把垃圾拿出来’。

随着人工智能变得越来越先进和广泛使用,确保对高质量数据的访问至关重要。正如糟糕的数据质量可能成为改进人工智能模型决策的主要障碍一样,良好的数据质量可以为未来的进步铺平道路。

“就更广泛的影响而言,数据质量是所有类型研究的基础,”金说。“虽然我们在研究中特别关注电子制造,但这可以广泛应用于许多不同的行业,如航空航天或生物制造。

分解制造业工业互联网

正如 Jin 所描述的那样,制造业工业互联网是从各种制造过程中收集数据以进行自适应计算以改进制造的关键。这比将我们的手机和笔记本电脑连接到网络的互联网不同且更复杂。制造业 工业互联网连接了制造环境中的一切,并由人工智能而不是人类在决策中驱动。此外,它还使机器能够与工厂和供应链中的其他机器进行通信。互连系统可以优化质量,减少成本和浪费,并提高产品设计的生产力和灵活性。

“制造业工业互联网的关键功能是从不同的制造过程和系统收集数据,并利用这些信息提供实时或接近实时的决策和控制,”Jin说。

虽然我们经常使用的互联网系统与制造业工业互联网不同,但这两个系统之间有相似之处。

“就像人类使用在线社交网络相互交流以更好地协作一样,制造业工业互联网就像一个人工智能代理的社交网络,它们为了不同的目标自主地相互交流和协作,”金说。 “另一个例子包括车联网系统,将道路上的车辆和交通基础设施或智能电网连接起来,在这个系统中,发电机和配电器相互连接和交谈,以做出决策并实现集体控制,以获得更好的整体性能。

人工智能成功的未来:数据质量

制造业、工业、互联网和人工智能拥有大量数据可供使用。Jin希望他的研究能够更好地帮助其他数据科学家了解什么是有用的,什么是无用的。

“我们拥有来自制造业工业互联网的大量被动连接数据,成本非常低。问题是:我们应该使用所有数据,还是应该只使用更小但更有意义的数据子集?“金先生说。“后者有几个好处,包括更低的计算工作量和存储空间,并确保更好的人工智能性能。

通过提高数据质量,该项目不仅旨在提高制造过程的效率和有效性,还为各行各业的广泛应用奠定了基础,强调了高质量数据对制造业及其他领域的未来影响。

“我坚信这个项目将为评估数据奠定基础。我们怎么强调数据估值和质量的重要性都不为过,“金说。“数据是人工智能的燃料,这对我们未来的经济非常重要。

新闻旨在传播有益信息,英文版原文来自https://news.vt.edu/articles/2024/03/ise-golden-data.html