医生在查看深色皮肤的图像时更难诊断疾病

Vertical columns show skin textures with a variety of skin tones, and an inset circle magnifies three columns.

根据麻省理工学院研究人员的一项新研究，当仅根据患者皮肤图像诊断皮肤病时，当患者皮肤较黑时，医生的表现就不那么好了。

该研究包括1000多名皮肤科医生和全科医生，发现皮肤科医生准确地描述了他们看到的约38%的图像，但只有34%的图像显示较黑的皮肤。总体上不太准确的全科医生在皮肤较深的情况下表现出类似的准确性下降。

研究小组还发现，人工智能算法的帮助可以提高医生的准确性，尽管在诊断皮肤较浅的患者时，这些改进更大。

虽然这是第一项证明医生诊断差异不同肤色的研究，但其他研究发现，皮肤病学教科书和培训材料中使用的图像主要具有较浅的肤色。麻省理工学院的研究小组说，这可能是导致这种差异的一个因素，还有一些医生在治疗深色皮肤患者方面的经验可能较少。

“可能没有医生打算在任何类型的人身上做得更糟，但这可能是因为你没有所有的知识和经验，因此在某些人群中，你可能会做得更糟，”西北大学凯洛格管理学院助理教授Matt Groh博士说。“这是您需要经验证据来帮助人们弄清楚您可能希望如何改变皮肤病学教育政策的情况之一。”

Groh是该研究的主要作者，该研究今天发表在 《自然医学》上。麻省理工学院媒体艺术与科学教授罗莎琳德·皮卡德（Rosalind Picard）是该论文的资深作者。

诊断差异

几年前，麻省理工学院（MIT）由Joy Buolamwini博士领导的22岁博士领导的一项研究发现，面部分析程序在预测深色皮肤人群的性别时错误率要高得多。这一发现启发了研究人类与人工智能合作的格罗，研究人工智能模型，以及可能的医生本身，是否可能难以诊断较深皮肤的皮肤疾病，以及这些诊断能力是否可以提高。

“这似乎是一个很好的机会，可以确定是否存在社会问题，以及我们可能想要如何解决这个问题，并确定如何最好地将人工智能辅助纳入医疗决策，”格罗说。“我对如何将机器学习应用于现实世界的问题非常感兴趣，特别是如何帮助专家更好地完成工作。医学是人们做出真正重要决定的领域，如果我们能改善他们的决策，我们就可以改善患者的治疗效果。

为了评估医生的诊断准确性，研究人员从皮肤病学教科书和其他来源收集了364张图像，代表了46种皮肤病。

这些图像中的大多数描绘了八种炎症性皮肤病中的一种，包括特应性皮炎、莱姆病和二期梅毒，以及一种称为皮肤 T 细胞淋巴瘤（CTCL）的罕见癌症，其外观类似于炎症性皮肤病。许多这些疾病，包括莱姆病，在深色和浅色皮肤上的表现可能不同。

研究小组通过医生社交网站Sermo招募了研究对象。整个研究组包括 389 名获得委员会认证的皮肤科医生、116 名皮肤科住院医师、459 名全科医生和 154 名其他类型的医生。

每个研究参与者都看到了10张图像，并被问及他们对每张图像可能代表的疾病的前三个预测。他们还被问及是否会转介患者进行活检。此外，全科医生被问及他们是否会将患者转诊给皮肤科医生。

“这不像面对面的分诊那样全面，医生可以从不同角度检查皮肤并控制照明，”皮卡德说。“然而，皮肤图像在在线分类方面更具可扩展性，并且它们很容易输入到机器学习算法中，从而可以快速估计可能的诊断。

研究人员发现，毫不奇怪，皮肤病学专家的准确率更高：他们正确分类了38%的图像，而全科医生的准确率为19%。

当试图根据深色皮肤的图像诊断皮肤状况时，这两组的准确性都下降了约四个百分点 – 统计学上显着下降。皮肤科医生也不太可能将CTCL的深色皮肤图像转诊进行活检，但更有可能将其转诊进行非癌性皮肤病的活检。

“这项研究清楚地表明，深色皮肤对皮肤状况的诊断存在差异。这种差异并不奇怪;但是，我还没有在文献中看到它以如此强大的方式证明。应该进行进一步的研究，以尝试更准确地确定这种差异的致病因素和缓解因素可能是什么，“加州大学旧金山分校皮肤病学副教授兼肤色项目主任Jenna Lester说，他没有参与这项研究。

人工智能的推动力

在评估了医生自己的表现后，研究人员还为他们提供了额外的图像，以便在研究人员开发的人工智能算法的帮助下进行分析。研究人员在大约30,000张图像上训练了这种算法，要求它将图像归类为大多数图像所代表的八种疾病之一，以及第九类“其他”。

该算法的准确率约为47%。研究人员还创建了该算法的另一个版本，人为夸大了84%的成功率，使他们能够评估模型的准确性是否会影响医生接受其建议的可能性。

Groh 说：“这使我们能够使用目前我们能做的最好的模型来评估 AI 辅助，并且 AI 辅助可能更准确，也许从现在开始五年后，拥有更好的数据和模型。

这两种分类器在浅色和深色皮肤上都同样准确。研究人员发现，使用这些人工智能算法中的任何一种都可以提高皮肤科医生（高达60%）和全科医生（高达47%）的准确性。

他们还发现，在提供一些正确答案后，医生更有可能从更准确的算法中接受建议，但他们很少采纳不正确的人工智能建议。Groh说，这表明医生在排除疾病方面非常熟练，并且不会对他们已经排除的疾病接受AI建议。

“他们非常擅长在人工智能错误而医生正确时不接受人工智能的建议。这是有用的知识，“他说。

虽然使用人工智能辅助的皮肤科医生在查看浅色或深色皮肤的图像时表现出类似的准确性提高，但全科医生在浅色皮肤的图像上比深色皮肤的图像表现出更大的改善。

“这项研究不仅让我们看到了人工智能辅助如何影响，而且看到了它如何影响各个专业水平，”格罗说。“那里可能发生的事情是，PCP没有那么多的经验，所以他们不知道是否应该排除疾病，因为他们没有深入了解不同皮肤病在不同肤色上可能看起来的细节。

研究人员希望他们的研究结果将有助于刺激医学院和教科书对深色皮肤患者进行更多培训。这些发现还有助于指导皮肤病学人工智能辅助计划的部署，许多公司现在正在开发该计划。

该研究由麻省理工学院媒体实验室联盟和哈罗德霍洛维茨学生研究基金资助。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2024/doctors-more-difficulty-diagnosing-diseases-images-darker-skin-0205