技术揭示了患者风险模型是否准确

在病人心脏病发作或中风后，医生经常使用风险模型来帮助指导他们的治疗。这些模型可以根据病人的年龄、症状和其他特征等因素来计算病人的死亡风险。

虽然这些模型在大多数情况下是有用的，但它们不能对许多患者做出准确的预测，这可能导致医生对一些患者选择无效或不必要的风险治疗。

麻省理工学院电子工程和计算机科学教授、麻省总医院心脏病专家科林·斯图尔茨说:“每一个风险模型都是在一些病人的数据集上评估的，即使它有很高的准确性，在实践中也不可能百分之百准确。”“有些病人，模型会得出错误的答案，那将是灾难性的。”

Stultz和他来自麻省理工学院、IBM研究中心和马萨诸塞大学医学院的同事们现在已经开发出一种方法，使他们能够确定一个特定模型的结果是否可以信任给定的病人。研究人员说，这可以帮助医生为这些患者选择更好的治疗方法。

斯图尔茨也是健康科学与技术教授，麻省理工学院医学工程与科学研究所成员，电子研究实验室成员，计算机科学与人工智能实验室成员，是这项新研究的资深作者。麻省理工学院的研究生保罗·迈尔斯是这篇论文的主要作者，这篇论文发表在今天的《数字医学》杂志上。

建模的风险

计算机模型可以预测病人发生包括死亡在内的有害事件的风险，这在医学上得到了广泛的应用。这些模型通常是通过训练机器学习算法来分析病人数据集，其中包括病人的各种信息，包括他们的健康结果。

Stultz说，虽然这些模型具有很高的整体准确性，但是“很少考虑到何时模型可能失败”。“我们正试图改变人们对这些机器学习模型的看法。考虑何时应用一个模型是非常重要的，因为错误的后果可能是致命的。”

例如，一个被错误分类的高危患者将不会接受足够积极的治疗，而一个被错误确定为高危的低危患者可能会接受不必要的、潜在有害的干预措施。

为了说明这种方法是如何工作的，研究人员选择了一种广泛使用的风险模型GRACE风险评分，但这种技术几乎可以应用于任何类型的风险模型。GRACE是全球急性冠状动脉事件的注册表，是一个大型数据集，用于开发一个风险模型，评估急性冠状动脉综合征(一种由流向心脏的血液减少引起的疾病)后六个月内患者的死亡风险。由此产生的风险评估是基于年龄、血压、心率和其他现成的临床特征。

研究人员的新技术产生了一个从0到1的“不可靠性评分”。对于给定的风险模型预测，分数越高，预测越不可靠。不可靠性评分是基于特定模型(如GRACE风险评分)生成的风险预测与在相同数据集上训练的不同模型生成的预测的比较。Stultz说，如果模型产生了不同的结果，那么对该患者的风险模型预测可能不可靠。

Stultz说:“我们在这篇论文中所展示的是，如果你观察那些不可靠性得分最高的病人，也就是前1%的病人，那么对他们的风险预测所得到的信息就如同抛硬币一样。”“对于那些患者，GRACE评分无法区分哪些患者已经死亡，哪些没有。对那些病人来说完全没用。”

研究人员的发现还表明，对那些模型效果不佳的病人来说，他们往往年龄更大，心脏风险因素的发生率更高。

该方法的一个显著优点是，研究人员推导出一个公式，该公式可以告诉两个预测有多少不一致，而不必根据原始数据集建立一个全新的模型。

Stultz说:“你不需要访问训练数据集本身来计算这种不可靠性测量，这很重要，因为有隐私问题阻止了这些临床数据集被不同的人广泛访问。”

再培训模型

研究人员现在正在设计一个用户界面，医生可以用它来评估一个病人的GRACE评分是否可靠。从长远来看，他们还希望通过更容易地对数据进行再培训来提高风险模型的可靠性，这些数据包括更多与被诊断患者相似的患者。

“如果模型足够简单，那么对模型进行再培训可能很快。你可以想象一套完整的软件集成到电子健康记录中，它会自动告诉你某个特定的风险评分对某个病人是否合适，然后试着做一些事情，比如重新培训可能更合适的新模型，”Stultz说。

这项研究由麻省理工学院- ibm沃森人工智能实验室资助。论文的其他作者包括麻省理工学院研究生戴王之;来自IBM研究中心计算健康中心的Kenney Ng, Kristen Severson和Uri Kartoun;以及麻省大学医学院成果研究中心的黄伟和弗雷德里克·安德森。

新闻旨在传播有益信息，英文原版地址：http://news.mit.edu/2020/clinical-risk-models-acccurate-0123