分类
芝加哥大学新闻

Machine learning reveals recipe for building artificial proteins

蛋白质对细胞来说是必不可少的,可以执行复杂的任务和催化化学反应。长期以来,科学家和工程师们一直试图通过设计人工蛋白质来利用这种能量,使其能够执行新的任务,如治疗疾病、捕获碳或收集能源,但许多制造这种蛋白质的过程既缓慢又复杂,失败率很高。

芝加哥大学普利兹克分子工程学院(Pritzker School of Molecular Engineering)的研究人员领导的一个团队开发了一种人工智能主导的流程,利用大数据设计新的蛋白质。这一突破性进展可能会对医疗保健、农业和能源行业产生深远影响。


通过开发能够审查从基因组数据库中提取的蛋白质信息的机器学习模型,研究人员发现了构建人工蛋白质的相对简单的设计规则。当研究小组在实验室中构建这些人造蛋白质时,他们发现这些蛋白质的化学过程非常好,可以与自然界中发现的蛋白质相媲美。

约瑟夫·雷根斯坦生物化学、分子生物学和分子工程教授拉马·朗格纳坦说:“我们都想知道,像进化这样简单的过程是如何产生像蛋白质这样的高性能材料的。”“我们发现基因组数据包含了关于蛋白质结构和功能的基本规则的大量信息,现在我们已经能够将自然规则禁锢起来来创造我们自己的蛋白质。”

研究结果发表在7月24日的《科学》杂志上。

使用人工智能学习设计规则

蛋白质由成百上千个氨基酸组成,这些氨基酸序列指定了蛋白质的结构和功能。但是理解如何构建这些序列来创造新的蛋白质一直是一个挑战。过去的工作已经产生了可以指定结构的方法,但是函数更加难以捉摸。

在过去的15年里,Ranganathan和他的合作者们意识到基因组数据库——以指数级增长——包含了大量关于蛋白质结构和功能基本规则的信息。他的团队基于这些数据开发了数学模型,然后开始使用机器学习方法来揭示蛋白质基本设计规则的新信息。

在这项研究中,他们研究了代谢酶的chorismate突变酶家族,这是一种对许多细菌、真菌和植物的生命至关重要的蛋白质。利用机器学习模型,研究人员能够揭示这些蛋白质背后的简单设计规则。

该模型表明,仅氨基酸位置的保守性和氨基酸对进化过程中的相关性就足以预测具有蛋白质家族特性的新的人工序列。

“我们通常认为,要建造某样东西,你必须首先深刻理解它是如何工作的,”Ranganathan说。“但如果你有足够的数据例子,你就可以使用深度学习的方法来学习设计的规则,即使你正在理解它是如何工作的,或者为什么它是这样构建的。”

然后,他和他的合作者创造了合成基因来编码这些蛋白质,并将它们克隆到细菌中,然后观察细菌用它们正常的细胞机制制造出这些合成蛋白质。他们发现人工蛋白质与天然的chorismate突变酶蛋白质具有相同的催化功能。


一个理解其他复杂系统的平台

由于设计规则相对简单,研究人员可以用它们创造的人造蛋白质数量非常大。

“这些限制比我们想象的要小得多,”Ranganathan说。“自然界的设计规则是简单的,我们相信类似的方法可以帮助我们寻找设计其他复杂生物系统的模型,比如生态系统或大脑。”

尽管人工智能揭示了设计规则,但Ranganathan和他的合作者们仍然不能完全理解为什么这些模型可以工作。接下来,他们将研究这些模型是如何得出这个结论的。“还有很多工作要做,”他说。

与此同时,他们还希望利用这个平台开发能够解决诸如气候变化等紧迫的社会问题的蛋白质。Ranganathan和协会。Andrew Ferguson教授已经成立了一家名为Evozyne的公司,该公司将把这项技术商业化,应用于能源、环境、催化和农业。Ranganathan与芝加哥大学的波尔斯基创业与创新中心合作,申请专利并授权给该公司。

他说:“这个系统为我们提供了一个平台,以我们一直梦想的方式合理地设计蛋白质分子。”“它不仅能教会我们蛋白质如何工作和进化的物理原理,还能帮助我们找到碳捕获和能源收集等问题的解决方案。”更普遍的是,对蛋白质的研究甚至可以帮助我们了解现代机器学习背后的深层神经网络是如何工作的。”

论文的其他作者包括德克萨斯大学西南医学中心的William P. Russ;索邦大学的Martin Weigt, Matteo Figliuzzi和Pierre barrata – charlaix;来自苏黎世联邦理工学院的克里斯蒂安·斯托克、彼得·卡斯特、唐纳德·希尔弗特;来自巴黎高等师范学校体格实验室的Simona Cocco和Remi Monasson;以及来自芝加哥大学的Michael Socolich。

引文:“设计chorismate突变酶的基于进化的模型,”Russ等人。科学杂志,2020年7月24日。

资助:美国国立卫生研究院、罗伯特·a·韦尔奇基金会、芝加哥大学数据和计算中心、德克萨斯大学西南医学中心系统生物学绿色中心、欧盟H2020研究和创新计划、国家研究机构和瑞士国家科学基金会。

转载自普利兹克分子工程学院最初发表的一篇文章。

新闻旨在传播有益信息,英文原版地址:https://news.uchicago.edu/story/machine-learning-reveals-recipe-building-artificial-proteins