迁移学习为新的疾病治疗铺平了道路

gene expression

基因测序和计算方面的技术进步分别导致了生物信息学数据和处理能力的爆炸式增长，为人工智能（AI）设计控制细胞行为的策略创造了成熟的联系。

在一项新的研究中，西北大学的研究人员通过开发一种人工智能驱动的迁移学习方法，重新利用公开可用的数据来预测基因扰动的组合，这些基因扰动可以改变细胞类型或使患病细胞恢复健康。

该研究今天发表在《美国国家科学院院刊》上。

自20年前人类基因组计划完成以来，科学家们已经知道人类DNA包含20,000多个基因。然而，关于这些基因如何协同工作以协调我们体内数百种不同的细胞类型，这仍然是一个谜。

令人惊讶的是，基本上通过引导试错，研究人员已经证明，仅通过操纵少数基因就可以“重新编程”细胞类型。人类基因组计划还促进了测序技术的进步，不仅使读取遗传密码的成本更低，而且测量基因表达也更便宜，基因表达量化了执行细胞功能的蛋白质的前体。这种可负担性的提高导致了大量公开可用的生物信息学数据的积累，增加了合成这些数据以合理设计基因操作的可能性，这些基因操作可以引发所需的细胞行为。

控制细胞行为的能力，从而跨细胞类型的转换，可以应用于再生受伤组织或将癌细胞转化回正常细胞。

在美国，中风、关节炎和多发性硬化症导致的损伤组织每年影响 290 万人，每年损失高达 4 亿美元。与此同时，全球每年约有1000万人死于癌症，经济损失高达数万亿美元。由于目前的护理标准不能再生组织和/或疗效有限，因此迫切需要开发更广泛适用的更有效治疗方法，这反过来又需要确定可以从高通量数据中推断出的分子干预措施。

在这项新研究中，研究人员训练他们的人工智能，以了解基因表达如何使用公开的基因表达数据产生细胞行为。该学习过程生成的预测模型被转移到特定的细胞重编程应用程序中。在每种应用中，该方法都会找到最有可能诱导所需细胞类型转变的基因操作组合。

对全基因组动力学的前所未有的探索

“我们的工作从以前合理设计操纵细胞行为策略的方法中脱颖而出，”该论文的主要作者，西北大学网络动力学中心成员Thomas Wytock说。“这些方法主要分为两类：一类是根据基因的相互作用或共同特性将基因组织成网络;另一个是比较来自健康和患病细胞的基因表达，以挑出显示最大差异的基因。

在第一类中，现实主义和规模之间存在权衡。一些网络模型包含许多基因，但只能说明关系是否存在。其他模型是定量的和实验验证的，但必然涉及少量的基因和关系。西北大学的新工作保留了这两种模型的优势：它包含细胞中的所有基因，并定量地表示它们的表达。这是通过将近 20,000 个单个基因的表达减少到不超过 10 个此类基因的线性组合来实现的，这些组合是称为特征基因的加权平均值。

“特征基因基本上显示了基因如何协同工作，从而有可能将大型动态网络的动力学简化为几个运动部件，”温伯格艺术与科学学院Charles E.和Emma H. Morrison物理学教授Adilson Motter说，西北大学网络动力学中心主任，该研究的资深作者。“每个特征基因都可以被认为是一个大致独立于其他特征基因的广义途径。因此，特征基因在基因调控网络中获得了相关的相关性和独立性。

第二类方法可以找到与细胞行为变化相关的单个基因，但无法指定基因如何协同工作以实现这种变化。新方法通过认识到基因一致地改变其表达来克服这一挑战。根据特征基因对这一特性进行定量说明，可以通过适当地缩放它们来加法组合它们对不同基因扰动的反应。然后，可以将组合响应输入到 AI 模型中，以确定哪些扰动会引起所需的细胞行为。

避免组合爆炸

有了这个人工智能模型，研究人员整理了公开可用的数据，以确定当单个基因因外源性升高或降低其表达而受到干扰时，基因表达是如何变化的。然后，他们开发了一种算法来解决逆问题，即预测最有可能诱导所需重编程转换的基因组合，例如使患病细胞表现为健康细胞。通过整合数据和算法得出的方法避免了测试所有组合以识别有效组合而导致的组合爆炸。这很重要，因为实验只能测试有限数量的案例，并且该算法提供了一种识别最有希望的案例的方法。

“这种方法的亮点在于它能够通过计算检查无数组合，”Wytock说。“例如，200 个扰动的成对组合产生 20,000 个案例，三元组产生超过 130 万个案例，并且这个数字呈指数级增长。由于该算法采用优化，因此该方法可以通过微积分的魔力比较潜在无限数量组合的预测。

该方法规避的另一个挑战是基因扰动可以以非加性方式结合。例如，考虑基因扰动对细胞生长速率的影响，并想象当单独应用时，扰动会使生长速率减半。如果两个这样的扰动将增长减少到明显多于或明显小于一半（或四分之一）的一半，则它们的影响是非累加的。尽管有大量的研究表征基因之间的非加性相互作用，但即使不必考虑这种与可加性的偏差，新方法也是有效的。

“在这种情况下，整体与各部分的总和非常接近，”莫特说。 “诱导细胞类型之间转换所需的干预措施的这种特性是违反直觉的，因为细胞类型本身来自基因之间的集体相互作用。

由于该方法解决了控制细胞行为的主要挑战，因此它可以应用于许多不同的生物医学条件，包括那些将从未来数据中受益的条件。

为即将到来的数据提供灵活的模型

对基因扰动的反应结合在一起，这一事实促进了跨细胞类型的泛化。例如，如果一个基因在皮肤细胞中被破坏，那么对肝细胞中表达的影响将在很大程度上相同。

因此，人工智能驱动的方法可以被认为是一个平台，可以在其中插入与特定患者特定疾病相关的数据。只要将治愈疾病视为重编程问题，例如癌症、糖尿病和自身免疫性疾病，这些疾病都是由细胞功能障碍引起的，则可以应用该方法。

该方法的多功能性使得单个研究中的基因表达能够快速地与美国国家生物技术信息中心测序读取档案中的所有可用数据进行背景化，该档案库是最大的公开可用的基因表达数据存储库。在 2012 年至 2022 年期间，该存档从 10 TB 增长到 1,000 TB，增长了 100 倍，并且随着测序成本的降低，该存档继续呈指数级增长。这项工作提供了一个关键工具，可以将这些丰富的数据转化为基因如何协同工作以控制正常和患病细胞行为的具体预测。

这项名为“通过功能转录网络的迁移学习进行细胞重编程设计”的研究得到了陆军研究办公室，美国国立卫生研究院，美国国家科学基金会和西北大学马尔纳蒂脑肿瘤研究所的支持。

新闻旨在传播有益信息，英文版原文来自https://news.northwestern.edu/stories/2024/03/transfer-learning-paves-the-way-for-new-disease-treatments/