统计机器学习可以发现疾病背后的未知因素

现在，一种新方法可以通过使用统计机器学习来对大量复杂的生物数据进行分类，从而找到以前未知的疾病因素。

这种名为SLIDE的“旗舰”方法成功地整合了多个复杂的生物数据集，并提取出独特的因素 – 用英语来说，使结果易于理解 – 直接或间接地解释数据。

康奈尔大学的研究人员和康奈尔大学的博士现在在匹兹堡大学，它可能会改变我们对多组学数据的看法——大型而多样的数据集，可以包括有关细胞、组织或个体的遗传学、代谢和功能的详细信息。

他们的研究“SLIDE：跨生物领域的显著潜在因子相互作用发现和探索”于2月19日发表在《自然方法》杂志上。

“我喜欢它，因为它是可解释的，”合著者、康奈尔大学安·鲍尔斯计算与信息科学学院统计和数据科学教授弗洛伦蒂娜·布尼亚（Florentina Bunea）说。“从本质上讲，我们可以从可测量的生物输入中找到可解释的隐藏机制。

该研究建立在包括Bunea在内的合著者进行的理论工作的基础上;Marten Wegkamp，康奈尔大学鲍尔斯独联体统计学和数据科学教授，艺术与科学学院数学教授;Xin Bing，Ph.D. ’21，前康奈尔大学统计学博士生，现在在多伦多大学。

Bunea说，SLIDE既提供了确认，也提供了发现，因为它可以证实以前的发现并指出未知的机制。

为了开发这个应用程序，康奈尔大学的理论家与匹兹堡大学免疫学助理教授Jishnu Das博士合作，他是一名系统免疫学家，曾在康奈尔大学学习计算生物学，在那里他参加了Bunea的统计课。

SLIDE代表了以前方法的进步，以前的方法只能从样本中获取多组学数据图谱，并预测样本是来自健康生物体还是患病生物体。“这只是一个预测，”达斯说。“这就是’什么’——它没有涉及到’如何’或’为什么’。作为一名生物学家，我非常关心如何以及为什么。

研究人员使用来自24名系统性硬皮病患者的数据证明了SLIDE的功效，系统性硬皮病是一种自身免疫性疾病，会导致皮肤增厚，也会损害内脏器官。利用皮肤活检数据显示哪些基因在单个细胞中被激活，研究人员能够预测每个患者的疾病严重程度以及 – 或优于 – 最先进的方法。

他们还确定了导致病情严重程度的九个隐藏因素。其中一些因素是公认的，而另一些则是新颖的，例如以前未知的角质形成细胞的作用，角质形成细胞是皮肤最外层的主要细胞。更多的实验室实验已经在进行中，以确认SLIDE确定的因素确实导致了疾病症状。

这篇论文概述了Das的实验室如何使用SLIDE在哮喘小鼠模型中重现不同类型免疫细胞在淋巴结中的位置。同样，在1型糖尿病的小鼠模型中，SLIDE成功地确定了驱动CD4 + T细胞增殖的因素，CD4 + T细胞攻击胰腺中制造胰岛素的细胞，导致疾病。

“我们真的相信这将是一项跨越疾病背景的变革性技术，从研究疾病严重程度到细胞特征，再到疾病发病机制，再到参与驱动这些过程的特定细胞类型，”Das说。

Bunea将理论家和应用研究人员之间的这种合作描述为“一种有回报的协同作用”，并指出，隐藏因素是唯一和可识别的统计学保证是赋予该方法力量的原因。

“理论人员参与实际应用的次数越多，”她说，“对我们所有人来说就越好。

该论文的其他贡献者包括来自匹兹堡大学的共同第一作者Javad Rahimikollu和Hanxi Xiao。

帕特里夏·沃尔德伦（Patricia Waldron）是康奈尔大学安·鲍尔斯（Cornell Ann S. Bowers）计算与信息科学学院的作家。

新闻旨在传播有益信息，英文版原文来自 https://news.cornell.edu/stories/2024/03/statistical-machine-learning-can-find-unknown-factors-behind-disease