分类
杜克大学新闻

研究生命源代码的计算机科学家

我们生来就有明确的身体特征。无论是锐利的蓝眼睛还是乌黑的头发,这些特征使我们在整个生活中脱颖而出。然而,我们所有的属性都有一个共同的来源:基因。

除了决定我们的个体特征之外,基因还指示细胞制造蛋白质,这些蛋白质对于从控制肌肉功能到管理消化系统等各种过程都是必不可少的。尽管基因在我们身体的运作中很重要,但它们也可以编码有害的疾病,如亨廷顿氏舞蹈病或杜氏肌肉萎缩症。

Raluca Gordan博士

这些类型的疾病正是Raluca Gordan博士通过她的研究与之斗争的。她和她的团队正试图找出如何解码非编码基因组,即除蛋白质编码基因外的DNA。他们正在加深对基因组非编码区在编码基因表达和蛋白质生产中所起作用的理解。

杜克大学生物统计学和生物信息学副教授戈登说,大多数致病基因突变来自基因之外的基因组。

“这是一个巨大的搜索空间,”她笑着说。“基因只占基因组的2%左右。如果我们不了解这些非编码区域在做什么,就很难预测这些区域的突变会做什么,以及如何将其与疾病的发展联系起来。”

Gordan最近发表了一篇名为“DNA错配揭示蛋白质- DNA识别中的构象惩罚”的论文,重点关注转录因子及其与错配DNA结合的特殊能力,即DNA复制过程中出现的拼写错误。在正常的复制过程中,核苷酸碱基(我们DNA的组成部分)被正确配对,腺嘌呤和胸腺嘧啶配对,胞嘧啶和鸟嘌呤配对。然而,当复制过程中发生错误时,就会出现错对,因为腺嘌呤可能会与鸟嘌呤配对。

“通常情况下,这些错误可以通过特定的错配修复途径修复,但如果其中一个转录因子坐在复制错误上,不允许修复机制看到它,修复可能不会发生,”戈登解释说。“通常,人们会认为转录因子不会与这些错误结合。但我们发现,它们比它们实际的基因组靶标结合得更好。”

错配DNA与转录因子结合的建模。

为了进一步扩展她的计算发现,戈登现在正在跟进一项活细胞中转录因子与失配结合的研究,观察它们是否采用了它们通常的调节基因表达的作用,或者促进了突变的发展。

戈登的研究是她对改变的热情和渴望的产物。这也可以归因于她在大学期间的一系列实现,以及一路引导她的鼓舞人心的导师。

在攻读本科学位时,戈登是一个纯粹的计算机科学专业,专注于密码学。然而,当她大学四年快结束的时候,她很快发现自己渴望有机会做更多的事情。她开始研究机器学习的应用,并注册了一门基于遗传算法的课程,她认为正是这门课程开启了自己的职业道路。

在那一刻,她获得了她所说的“对遗传学的第一次体验”,她对生物信息学的兴趣被不可逆转地激发了。此后,戈登申请了杜克大学的博士学位,在那里她与导师Alex Hartemink一起研究调控基因组学中的转录因子蛋白。在杜克大学,她的工作主要是计算性的。但在她的博士后导师、哈佛医学院的玛莎·布里克的带领下,戈登接触到了生物学更多的实验方面。

今天,她认识到这些经验是她正在进行的研究的一部分,这需要她在观察方法和计算工作之间频繁迭代。

戈登正在适应新隔离的世界。虽然她努力继续她的研究,但在大流行方面,这改变了她的常规。

她说:“我认为,自疫情开始以来,影响很大的是我们没有见面。”“当我们在同一个物理空间时,我们取得了很多快速的进展,并且能够立即得到反馈,学生们在实验室中实时了解彼此的结果。这被缩放会议取代,学生们主要在几周或几个月后的实验室会议上看到其他学生的结果。那些在实验室里持续不断的讨论。我们丢失了。”

戈登给了我这样有抱负的计算生物学家一些深思熟虑的临别建议。

“我受过计算机科学家的训练,所以我对实验工作不是很确定。但在实际做了实验工作后,我意识到两者兼顾的价值。”“你必须选择你最擅长的方面,要么是计算方面,要么是实验方面,但你不应该害怕另一方面。”

客座帖作者:Akshra Paimagam,北卡罗来纳科学与数学学院2021届毕业生

新闻旨在传播有益信息,英文原版地址:https://researchblog.duke.edu/2020/12/28/a-computer-scientist-investigating-the-source-code-of-life/