分类
麻省理工学院新闻

使遗传预测模型更具包容性

Stylized bell curves, in sepia tones, intersect and overlap against a graph paper background. An insect circle shows colorful DNA strands.

虽然任何两个人类基因组大约99.9%相同,但其余0.1%的遗传变异在塑造人类多样性方面发挥着重要作用,包括一个人患某些疾病的风险。

测量这些微小遗传差异的累积效应可以估计个体对特定疾病的遗传风险或具有特定性状的可能性。然而,用于生成这些“多基因评分”的大多数模型都是基于对欧洲血统人群进行的研究,并不能准确衡量非欧洲血统的人或基因组包含从先前分离的人群(也称为混合血统)遗传的染色体区域混合物的人的风险。

为了使这些遗传分数更具包容性,麻省理工学院的研究人员创建了一个新模型,该模型考虑了来自世界各地更广泛遗传祖先的人们的遗传信息。使用这个模型,他们表明他们可以提高基于遗传学的各种性状预测的准确性,特别是对于来自传统上在遗传研究中代表性不足的人群的人。

“对于非洲血统的人来说,我们的模型被证明平均准确率要高出60%左右,”麻省理工学院计算机科学与人工智能实验室(CSAIL)计算机科学教授、麻省理工学院和哈佛大学布罗德研究所成员Manolis Kellis说。“对于更广泛地具有混合遗传背景的人,他们被排除在大多数以前的模型之外,我们模型的准确性平均提高了约18%。

研究人员希望他们更具包容性的建模方法可以帮助改善更广泛人群的健康结果,并通过在全球范围内更广泛地传播基因组测序的好处来促进健康公平。

“我们所做的是创造了一种方法,使你能够更准确地了解混合和血统多样化的个体,并确保人类遗传学研究的结果和好处被每个人平等分享,”麻省理工学院博士后Yosuke Tanigawa说,他是该论文的主要作者和共同通讯作者,该论文今天以开放获取的形式出现在 《美国人类遗传学杂志》上.研究人员已经公开了他们的所有数据,供更广泛的科学界使用。

更具包容性的模型

这项工作建立在人类基因组计划的基础上,该计划绘制了人类基因组中发现的所有基因,以及随后对人类基因组中的遗传变异如何与疾病风险和个体之间其他差异相关的大规模、基于队列的研究。

这些研究表明,任何个体遗传变异本身的影响通常都非常小。总之,这些小影响加起来会影响患心脏病或糖尿病、中风或被诊断出患有精神分裂症等精神疾病的风险。

“我们有数十万个与复杂性状相关的遗传变异,每个变异单独发挥微弱作用,但它们一起开始预测疾病易感性,”凯利斯说。

然而,这些全基因组关联研究中的大多数包括很少的非欧洲血统的人,因此基于它们的多基因风险模型在非欧洲人群中的转化效果很差。来自不同地理区域的人可能有不同的遗传变异模式,这些模式是由随机漂移、种群历史和环境因素形成的——例如,在非洲人后裔中,预防疟疾的遗传变异比其他人群更常见。这些变异还会影响涉及免疫系统的其他特征,例如中性粒细胞(一种免疫细胞)的数量。这种变异在仅基于对欧洲血统的人的遗传分析的模型中是无法很好地捕捉到的。

“如果你是非洲人后裔、拉丁美洲后裔、亚洲后裔,那么你目前正被排除在系统之外,”凯利斯说。“利用遗传信息预测患者风险的这种不公平会导致不必要的负担、不必要的死亡和不必要的缺乏预防,这就是我们工作的用武之地。

一些研究人员已经开始尝试通过为欧洲人后裔、非洲人后裔或亚洲人后裔创建不同的模型来解决这些差异。这些新兴方法将个体分配到不同的遗传祖先群体,汇总数据以创建关联摘要,并建立遗传预测模型。然而,这些方法仍然不能很好地代表具有混合遗传背景的人。

“我们的方法建立在以前的工作基础上,不需要研究人员将个体或个体的局部基因组片段分配给预定义的不同遗传祖先群体,”Tanigawa说。“相反,我们通过直接研究其遗传祖先连续体中的个体,为每个人开发一个单一的模型。

在创建新模型时,麻省理工学院的团队使用了计算和统计技术,使他们能够研究每个人独特的遗传特征,而不是按人口对个体进行分组。这种方法上的进步使研究人员能够包括混合血统的人,他们占本研究使用的英国生物样本库数据集的近10%,目前约占美国新生儿的七分之一。

“因为我们在个人层面上工作,所以没有必要计算不同人群的摘要水平数据,”凯利斯说。“因此,我们不需要排除混合血统的个体,通过在我们的组合模型中包括更多的个体并代表所有人群的贡献来增加我们的权力。

更好的预测

为了创建他们的新模型,研究人员使用了来自超过280,000人的遗传数据,这些数据由英国生物银行收集,这是一个大型生物医学数据库和研究资源,其中包含来自五十万英国参与者的去识别化遗传,生活方式和健康信息。研究人员使用来自英国生物银行的另一组约81,000名个体,评估了60个特征的模型,其中包括与体型和形状相关的特征,如身高和体重指数,以及血液特征,如白细胞计数和红细胞计数,它们也有遗传基础。

研究人员发现,与仅针对欧洲血统个体训练的模型相比,他们的模型对所有遗传血统群体的预测都更准确。最显着的收益是非洲血统的人,他们表现出61%的平均改善,尽管他们只占英国生物样本库样本的1.5%左右。研究人员还发现,南亚裔的人改善了11%,英国白人改善了5%。对混合血统的人的预测提高了约18%。

“当你把所有的人都聚集在训练集中时,每个人都在平等的基础上为多基因评分模型的训练做出贡献,”谷川说。“结合越来越更具包容性的数据收集工作,我们的方法可以帮助利用这些努力来提高所有人的预测准确性。

麻省理工学院的研究小组希望其方法最终能够被纳入对个人患各种疾病风险的测试中。这些测试可以与常规风险因素相结合,用于帮助医生诊断疾病或帮助人们在患某些疾病之前管理其风险。

“我们的工作突出了多样性、公平性和包容性努力在基因组学研究背景下的力量,”谷川说。

研究人员现在希望在他们的模型中添加更多数据,包括来自美国的数据,并将其应用于他们在这项研究中没有分析的其他特征。

“这仅仅是个开始,”凯利斯说。“我们迫不及待地想看到更多的人加入我们的努力,推动包容性的人类遗传学研究。

该研究由美国国立卫生研究院资助。

新闻旨在传播有益信息,英文版原文来自https://news.mit.edu/2023/making-genetic-prediction-models-more-inclusive-1026