计算机如何将症状与疾病联系起来?

麻省理工学院(MIT)的一项新研究发现，“健康知识图”(health knowledge graphs)在某些情况和患者群体上可能存在缺陷。“健康知识图”显示症状与疾病之间的关系，旨在帮助临床诊断。研究结果还提出了提高他们表现的方法。

健康知识图表通常是由临床专家手工编辑的，但这可能是一个费力的过程。最近，研究人员尝试从病人数据中自动生成这些知识图。麻省理工学院的研究小组一直在研究这类图表在不同疾病和患者群体中的表现。

在太平洋生物计算2020年研讨会上发表的一篇论文中，研究人员评估了基于真实数据集自动生成的健康知识图，这些数据集包括27万多名患者，他们患有近200种疾病和770多种症状。

该团队分析了各种模型如何使用电子健康记录(EHR)数据，包括患者的医疗和治疗历史，以自动“学习”疾病症状相关性的模式。他们发现，对于高龄或年轻患者比例高、男性或女性患者比例高的疾病，这些模型的表现尤其糟糕——但为正确的模型选择正确的数据，并进行其他修改，可以提高性能。

其目的是在使用电子健康记录构建健康知识图时，为研究人员提供有关数据集大小、模型规范和性能之间关系的指导。这可能会带来更好的工具来帮助医生和病人做出医疗决策，或者寻找疾病和症状之间的新关系。

“在过去的10年中,电子健康档案在医院中使用一路飙升,所以有大量的数据,我们希望我学习这些图表的病害症状的关系,”第一作者艾琳y . Chen说研究生的电气工程和计算机科学(电)。“我们有必要仔细检查这些图表，以便将它们作为诊断工具的第一步。”

与陈一起发表论文的还有麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究生莫妮卡·阿格拉瓦尔(Monica Agrawal);贝斯以色列女执事医疗中心的Steven Horng;还有EECS教授David Sontag，他是CSAIL和医学工程与科学研究所的成员，也是临床机器学习小组的负责人。

病人和疾病

在健康知识图中，有数百个节点，每个节点代表不同的疾病和症状。边缘(线条)将疾病节点(如“糖尿病”)与相关症状节点(如“过度口渴”)连接起来。谷歌在2015年推出了自己的版本，这是著名的，由几个临床医生手工策划了数百小时，被认为是黄金标准。当你现在患病时，系统会显示相关症状。

在《自然科学》杂志2017年的一篇报告中，Sontag、Horng和其他研究人员利用他们目前研究的27万名患者的数据——这些数据来自北京医科大学急诊部，时间为2008年至2013年——来构建健康知识图表。他们使用三种模型结构来生成图形，分别是逻辑回归、朴素贝叶斯和噪声或。利用谷歌提供的数据，研究人员将自动生成的健康知识图与谷歌健康知识图(GHKG)进行了比较。研究人员的图表表现得非常好。

在他们的新工作中，研究人员进行了严格的错误分析，以确定哪些特定的病人和疾病的模型表现不佳。此外，他们还尝试从急诊室以外的地方增加更多的数据。

在一项测试中，他们将数据分成疾病和症状的亚群。对于每个模型，他们观察疾病和所有可能的症状之间的联系，并与GHKG进行比较。在论文中，他们将研究结果分为50种表现最差和50种表现最好的疾病。表现不佳的例子有多囊卵巢综合征(影响女性)、过敏性哮喘(非常罕见)和前列腺癌(主要影响老年男性)。表现好的是更常见的疾病和状况，如心律失常和足底筋膜炎，这是一种沿足部组织肿胀。

他们发现，在几乎所有的疾病和患者中，噪声或模型对总体误差的抵抗能力最强。但是，对于同时患有多种疾病和症状的患者，以及年龄很小或超过85岁的患者，所有模型的准确性都有所下降。病人性别比例过高或过低的病人，其表现也会受到影响。

本质上，研究人员假设，表现不佳是由患者和有异常预测表现的疾病以及潜在的未测混杂因素造成的。例如，老年患者比年轻患者更容易出现疾病和相关症状。陈说，这意味着模型很难将特定疾病与特定症状联系起来。“同样地，”她补充道，“年轻的病人没有那么多的疾病或症状，如果他们有一种罕见的疾病或症状，就不会以模型所能理解的正常方式表现出来。”

分割数据

研究人员还收集了更多的病人数据，并创建了三个不同粒度的不同数据集，以观察是否可以提高性能。在最初的分析中使用了27万次问诊，研究人员提取了140804位独特患者的完整EHR历史，回溯到10年前，总共有740万条来自不同来源的注释，比如医生的笔记。

数据集创建过程中的选择也会影响模型的性能。其中一个数据集将140,400名患者的病史汇总为一个数据点。另一个数据集将740万个注释中的每一个都作为单独的数据点。最后一个为每个病人创建“发作”，定义为连续的一系列访问，没有超过30天的中断，总共产生大约140万发作。

直观地说，将完整的患者历史汇总为一个数据点的数据集应该会带来更高的准确性，因为考虑了整个患者历史。然而，与直觉相反的是，它也导致朴素贝叶斯模型对某些疾病的表现更差。“在机器学习模型中，你假设的内部信息越多越好。但这些模型取决于你提供给它们的数据的粒度。“你使用的模型类型可能会被淹没。”

正如预期的那样，向模型提供人口统计信息也可能是有效的。例如，模型可以利用这些信息来排除所有男性患者，比如预测子宫颈癌。某些在老年患者中更为常见的疾病可以在年轻患者中消除。

但是，令人惊讶的是，人口统计信息并没有提高最成功模型的性能，所以收集这些数据可能是不必要的。陈说，这很重要，因为在数据上编译数据和训练模型既昂贵又耗时。然而，根据模型的不同，使用大量的数据实际上并不能提高性能。

接下来，研究人员希望利用他们的发现建立一个强大的模型，用于临床环境。目前，健康知识图学习的是疾病与症状之间的关系，而不是通过症状直接预测疾病。“我们希望任何预测模型和任何医学知识图谱都能接受压力测试，这样临床医生和机器学习研究人员就可以自信地说，‘我们相信这是一个有用的诊断工具，’”陈说。

新闻旨在传播有益信息，英文原版地址：http://news.mit.edu/2020/how-well-computers-symptoms-diseases-0108