考古方法如何帮助利用人工智能中的有偏见的数据来改善医学

Illustration of a 1990s era computer deposited among other debris at an ancient archaeological site

经典的计算机科学格言“垃圾输入，垃圾输出”在理解有偏见的医疗数据方面缺乏细微差别，麻省理工学院，约翰霍普金斯大学和艾伦图灵研究所的计算机科学和生物伦理学教授在最近一期 新英格兰医学杂志（NEJM）上发表的一篇新评论文章中说。人工智能的日益普及使人们对有偏见的人工智能模型导致算法歧视的问题进行了更多的审查，白宫科技办公室在其最近的《人工智能权利法案蓝图》中将其确定为关键问题。

当遇到有偏见的数据时，特别是对于医疗环境中使用的人工智能模型，典型的反应是从代表性不足的群体中收集更多数据，或者生成合成数据来弥补缺失的部分，以确保该模型在一系列患者群体中表现同样出色。但作者认为，这种技术方法应该用社会技术视角来增强，同时考虑到历史和当前的社会因素。通过这样做，研究人员可以更有效地解决公共卫生中的偏见。

“我们三个人一直在讨论我们经常从机器学习的角度处理数据问题的方式，这些问题需要通过技术解决方案进行管理，”共同作者 Marzyeh Ghassemi 回忆道，他是电气工程和计算机科学助理教授，也是安利捷健康机器学习诊所（Jameel 诊所）的附属机构，计算机科学与人工智能实验室（CSAIL）和医学工程与科学研究所（IMES）。“我们使用数据的类比作为人工制品，可以部分地了解过去的做法，或者一面破裂的镜子支撑着反射。在这两种情况下，信息可能并不完全准确或有利：也许我们认为我们作为一个社会在某些方面行事 – 但当你实际查看数据时，它讲述了一个不同的故事。我们可能不喜欢这个故事是什么，但一旦你发现了对过去的了解，你就可以继续前进，采取措施解决不良做法。

数据作为工件

在这篇题为“将有偏见的数据视为人工智能辅助医疗保健中的信息性人工制品”的论文中，Ghassemi，Kadija Ferryman和Maxine Mackintosh提出了将有偏见的临床数据视为“人工制品”的理由，就像人类学家或考古学家看待物理对象一样：揭示文明的实践，信仰体系和文化价值观 – 就论文而言，特别是那些导致医疗保健系统中存在不平等现象的人。

例如，2019年的一项研究表明，一种被广泛认为是行业标准的算法使用医疗保健支出作为需求指标，导致错误的结论，即病情较重的黑人患者需要与更健康的白人患者相同水平的护理。研究人员发现，算法歧视未能解释获得护理的不平等。

在这种情况下，Ghassemi和她的同事建议使用“人工制品”方法，以提高人们对影响数据收集方式的社会和历史因素的认识，而不是将有偏见的数据集或缺乏数据视为只需要处理或修复的问题，以及临床人工智能开发的替代方法。

“如果你的模型的目标是在临床环境中部署，你应该让生物伦理学家或临床医生在问题制定的早期接受适当的培训，”Ghassemi说。“作为计算机科学家，我们通常无法全面了解创建我们将要使用的数据的不同社会和历史因素。我们需要专业知识来辨别从现有数据中推广的模型何时可能不适用于特定的子组。

当更多数据实际上会损害性能时

作者承认，实施基于人工制品的方法更具挑战性的方面之一是能够评估数据是否已得到种族纠正：即使用白人男性身体作为衡量其他身体的传统标准。这篇评论文章引用了 2021 年慢性肾脏病合作组织的一个例子，该合作组织开发了一个新的方程式来测量肾功能，因为旧方程式之前在黑人肌肉质量更高的笼统假设下得到了“纠正”。Ghassemi说，研究人员应该准备好调查基于种族的纠正，作为研究过程的一部分。

在最近由Ghassemi的博士生Vinith Suriyakumar和加州大学圣地亚哥分校助理教授Berk Ustun共同撰写的今年国际机器学习会议上接受的另一篇论文中，研究人员发现，假设包含自我报告的种族等个性化属性可以提高ML模型的性能，实际上会导致更差的风险评分。少数民族和少数民族人口的模型和指标。

“对于是否将自我报告的种族纳入临床风险评分，没有单一的正确解决方案。自我报告的种族是一种社会结构，既是其他信息的代理，又深深地代表了其他医疗数据。解决方案需要符合证据，“Ghassemi解释道。

如何前进

这并不是说有偏见的数据集应该被载入，或者有偏见的算法不需要修复——高质量的训练数据仍然是开发安全、高性能临床人工智能模型的关键， NEJM 的文章强调了美国国立卫生研究院（NIH）在推动道德实践方面的作用。

“生成高质量的、符合道德来源的数据集对于使用下一代人工智能技术至关重要，这些技术改变了我们的研究方式，”美国国立卫生研究院代理主任劳伦斯·塔巴克（Lawrence Tabak）在去年宣布其1.3亿美元的Bridge2AI计划时在一份新闻稿中表示。Ghassemi对此表示同意，并指出NIH“以道德方式优先考虑数据收集，涵盖我们以前没有强调过人类健康价值的信息 – 例如环境因素和社会决定因素。我对他们为实现有意义的健康结果而优先考虑和大力投资感到非常兴奋。

波士顿大学公共卫生大学（Boston University of Public Health）副教授伊莱恩·恩索西（Elaine Nsoesie）认为，将有偏见的数据集视为人工制品而不是垃圾有很多潜在的好处，首先要关注上下文。“在乌干达一家医院为肺癌患者收集的数据集中存在的偏差可能与美国为同一患者群体收集的数据集不同，”她解释说。“在考虑当地环境时，我们可以训练算法以更好地为特定人群服务。Nsoesie说，了解塑造数据集的历史和当代因素可以更容易地识别歧视性做法，这些做法可能以不明显的方式在算法或系统中编码。她还指出，基于工件的方法可能会导致制定新的政策和结构，确保消除特定数据集中偏见的根本原因。

“人们经常告诉我，他们非常害怕人工智能，尤其是在健康方面。他们会说，’我真的很害怕人工智能误诊我’，或者’我担心它会对我不好，’“Ghassemi说。“我告诉他们，你不应该害怕明天健康领域的一些假设的人工智能，你应该害怕现在的健康是什么。如果我们对从系统中提取的数据采取狭隘的技术观点，我们可能会天真地复制不良做法。这不是唯一的选择——意识到存在问题是我们迈向更大机会的第一步。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2023/how-archeological-approach-can-help-leverage-biased-data-ai-improve-medicine-0913