分类
普林斯顿大学新闻

Method reveals how hidden DNA mutations affect tissues

为了更好地理解疾病,研究人员创建了一个计算系统,来预测非编码DNA(不产生蛋白质的部分)突变对人体组织和细胞的影响。

基因产生蛋白质,保持你的身体功能和健康。但是编码蛋白质的基因只占你DNA的不到2%。乍一看,DNA的其余部分似乎处于休眠状态,但科学家现在认识到,这一区域在开启和关闭基因方面发挥着关键作用。

现在,普林斯顿大学(Princeton University)和纽约熨斗研究所(Flatiron Institute)计算生物学中心(Center for Computational Biology)的研究人员介绍了一种方法,将非编码DNA的变异与基因的运作联系起来。利用机器学习,研究人员创造了一种名为ExPecto的计算方法,它可以读取DNA片段,并预测该片段将如何改变全身基因的激活和失活。

首席研究员Olga Troyanskaya说,该系统“可以检测任何基因变异,并预测其对基因表达的影响。”

“这令人难以置信地兴奋,”普林斯顿大学(Princeton)计算机科学教授、刘易斯-西格勒综合基因组学研究所(Lewis-Sigler Institute for Integrative Genomics)教授、计算生物学中心(Center for Computational Biology)基因组学副主任特瑞安斯卡娅(Troyanskaya)说。

Graph of data from ExPecto

ExPecto通过分析突变对组织特异性基因表达的预测影响,确定了血细胞中容易被突变激活或抑制的过程。

在7月16日发表在《自然遗传学》(Nature Genetics)杂志上的一项研究中,研究人员报告了他们是如何计算超过1.4亿个突变对全身组织的影响的。研究人员发现,突变可能会增加几种与免疫有关的疾病的风险,包括慢性乙型肝炎病毒(HBV)感染和克罗恩病。研究人员警告说,他们的方法离诊断疾病还有很长的路要走;需要做更多的工作来更好地了解遗传操作的机制以及遗传和环境原因之间的平衡。

DNA包含的基因是构建蛋白质的蓝图,蛋白质是我们身体中负责执行重要任务的主要分子,比如运送氧气、与其他细胞沟通以及对抗感染。DNA的蛋白质编码序列只占人类基因组的不到2%。所有这些基因都存在于全身的细胞中。这种普遍性意味着对大脑功能至关重要的蛋白质编码基因也存在于消化道中,处于休眠状态。

基因是由基因组中另外98%的非编码部分(不编码蛋白质的非编码部分)开关的。大多数基因突变都发生在这个非编码区域。突变本质上是一种基因错误——基因组序列的增加、删除或改变。非编码区域的突变有时会导致基因在错误的时间开启或关闭身体错误的部位,增加患癌症等疾病的风险。

由于DNA的非编码部分是如此之大,因此很难确定具体的突变。之前的研究比较了许多患有特定疾病的个体的基因组,寻找这些个体的共同突变。然而,对于罕见的突变,这种方法变得越来越棘手。此外,DNA串有时会以大串的形式遗传,因此科学家们很难确定哪一段特定的遗传密码是罪魁祸首。

研究人员采用了不同的方法。他们开发了一个名为ExPecto(以《哈利波特》系列中的守护神咒语命名)的程序,可以读取原始DNA序列,并预测相应的基因表达效果。

期待利用人工智能的深度学习方法。通过使用一个参考基因组,研究人员训练了这个程序,以了解DNA如何控制200多种不同组织和细胞类型的基因表达。通过这些信息,ExPecto可以预测任何突变的效果,甚至是科学家从未见过的突变。

研究人员使用ExPecto来预测导致克罗恩病、慢性HBV感染和白塞病的突变。研究报告的合著者、普林斯顿大学的研究科学家钱德拉·希斯菲尔德(Chandra Theesfeld)随后对研究结果进行了实验验证。对于所有这三种疾病,她发现ExPecto预测的候选者比之前的研究更有可能导致这种疾病。

研究人员希望,有一天,ExPecto能够帮助医学专家识别出患者疾病的遗传因素,并根据患者的基因组定制治疗方案。

“一旦你知道哪种蛋白质受到影响,这种蛋白质做什么,你就可以设计药物来解决这个问题,”该研究的合著者、计算生物学中心研究员周健说。例如,他说,“如果你不能产生某种特定的蛋白质,那么你可以设计一种疗法来弥补缺失的蛋白质。”

任何人都可以访问ExPecto对蛋白质编码基因附近超过1.4亿个可能突变的影响的预测。这些结果可以作为研究小组开发的有关人类生物学和疾病的数据驱动预测系统HumanBase的一部分在线获得。参观者可以输入一个基因,看到所有可能影响该基因在218种组织和细胞类型中的任何一种表达的突变。

周预计,这一预期对于研究突变的进化结果将具有特别深刻的见解。例如,他和他的同事们发现,与专门针对一种特定组织类型的基因相比,突变对整个人体表达的基因的影响更小。“我们还没有一个完整的解释,”他说,但这个结果可能与更普遍存在的基因的健壮性有关。一个全身范围的基因问题有可能是致命的,或者以其他方式阻止个体传递他或她的基因信息。“进化已经为我们做了实验,”周说。

这个故事改编自西蒙斯基金会发表的一篇文章。