一种新的计算技术可以使设计有用的蛋白质变得更加容易

Dynamic speed lines frame a rainbow protein molecule in the foreground that’s made of shiny joined balls and connections. Behind it is a white molecule, and behind that is a simple grey protein icon.

为了设计具有有用功能的蛋白质，研究人员通常从具有理想功能的天然蛋白质开始，例如发射荧光，然后对其进行多轮随机突变，最终产生蛋白质的优化版本。

该过程产生了许多重要蛋白质的优化版本，包括绿色荧光蛋白（GFP）。然而，对于其他蛋白质，事实证明很难产生优化版本。麻省理工学院的研究人员现在已经开发出一种计算方法，可以更容易地根据相对较少的数据预测导致更好蛋白质的突变。

使用这个模型，研究人员产生了具有突变的蛋白质，这些突变预计将导致GFP的改进版本和来自腺相关病毒（AAV）的蛋白质，该蛋白质用于为基因治疗提供DNA。他们希望它也可以用于开发用于神经科学研究和医学应用的其他工具。

“蛋白质设计是一个难题，因为从DNA序列到蛋白质结构和功能的映射非常复杂。序列中可能有10个很大的蛋白质变化，但每个中间变化都可能对应于一个完全无功能的蛋白质。这就像试图在山脉中找到通往河流盆地的路，当沿途有崎岖的山峰挡住您的视线时。目前的工作试图使河床更容易找到，“麻省理工学院大脑和认知科学教授，麻省理工学院麦戈文脑研究所成员，K. Lisa Yang综合计算神经科学中心主任Ila Fiete说，也是该研究的资深作者之一。

麻省理工学院工程学院人工智能与健康杰出教授Regina Barzilay和麻省理工学院电气工程和计算机科学Thomas Siebel教授Tommi Jaakkola也是该论文的资深作者，该论文将于5月在国际学习表征会议上发表。麻省理工学院研究生Andrew Kirjner和Jason Yim是该研究的主要作者。其他作者包括麻省理工学院博士后Shahar Bracha和捷克技术大学研究生Raman Samusevich。

优化蛋白质

许多天然存在的蛋白质具有使它们可用于研究或医学应用的功能，但它们需要一些额外的工程来优化它们。在这项研究中，研究人员最初对开发可用于活细胞作为电压指示剂的蛋白质感兴趣。这些蛋白质由一些细菌和藻类产生，当检测到电势时会发出荧光。如果被设计用于哺乳动物细胞，这种蛋白质可以让研究人员在不使用电极的情况下测量神经元活动。

虽然几十年来的研究已经对这些蛋白质进行了工程设计，以产生更强的荧光信号，但在更快的时间尺度上，它们还没有变得足够有效，无法广泛使用。在麦戈文研究所爱德华·博伊登（Edward Boyden）实验室工作的布拉查（Bracha）联系了Fiete的实验室，看看他们是否可以共同研究一种可能有助于加快优化蛋白质过程的计算方法。

“这项工作体现了人类偶然性，这是许多科学发现的特征，”Fiete说。“它起源于Yang Tan Collective务虚会，这是来自麻省理工学院多个中心的研究人员的科学会议，在K. Lisa Yang的共同支持下，他们有着不同的使命。我们了解到，我们在模拟大脑如何学习和优化方面的一些兴趣和工具可以应用于完全不同的蛋白质设计领域，正如博伊登实验室所实践的那样。

对于研究人员可能想要优化的任何给定蛋白质，通过在序列中的每个点交换不同的氨基酸，可以产生几乎无限数量的可能序列。由于有这么多可能的变体，不可能通过实验测试所有这些变体，因此研究人员转向计算建模，试图预测哪些变体效果最好。

在这项研究中，研究人员着手克服这些挑战，使用来自GFP的数据来开发和测试一个计算模型，该模型可以预测蛋白质的更好版本。

他们首先在由GFP序列及其亮度组成的实验数据上训练一种称为卷积神经网络（CNN）的模型 – 这是他们想要优化的特征。

该模型能够基于相对少量的实验数据（来自大约1000个GFP变体）创建一个“适应度景观”——一个三维地图，描绘了给定蛋白质的适应度以及它与原始序列的差异。

这些景观包含代表较适合的蛋白质的峰值和代表不太适合的蛋白质的山谷。预测蛋白质达到适应度峰值需要遵循的路径可能很困难，因为蛋白质通常需要经历突变，使其适应度降低，然后才能达到附近的较高适应度峰值。为了克服这个问题，研究人员使用现有的计算技术来“平滑”健身景观。

一旦景观中的这些小颠簸被平滑，研究人员就重新训练了CNN模型，发现它能够更容易地达到更大的健身峰值。该模型能够预测优化的GFP序列，这些序列具有多达七种不同的氨基酸，这些蛋白质中最好的估计比原始蛋白质的拟合度约为2.5倍。

Kirjner说：“一旦我们有了这个代表模型认为附近的景观，我们就会将其平滑化，然后我们在更平滑的景观版本上重新训练模型。“现在，从起点到顶点有一条平坦的路径，模型现在能够通过迭代进行小的改进来达到这个路径。对于未平滑的景观来说，这通常是不可能的。

概念验证

研究人员还表明，这种方法在识别腺相关病毒（AAV）病毒衣壳的新序列方面效果很好，AAV是一种通常用于递送DNA的病毒载体。在这种情况下，他们优化了衣壳包装DNA有效载荷的能力。

“我们使用GFP和AAV作为概念验证，以表明这是一种适用于表征良好的数据集的方法，因此，它应该适用于其他蛋白质工程问题，”Bracha说。

研究人员现在计划将这种计算技术用于Bracha在电压指示剂蛋白上生成的数据。

“几十年来，数十个实验室一直在研究这个问题，但仍然没有比这更好的了，”她说。“希望现在通过生成更小的数据集，我们可以在计算机中训练模型，并做出比过去二十年手动测试更好的预测。

该研究部分由美国国家科学基金会、药物发现和合成机器学习联盟、安利捷健康机器学习诊所、DTRA 发现针对新出现威胁的医疗对策计划、DARPA 加速分子发现计划、赛诺菲计算抗体设计资助、美国海军研究办公室、霍华德休斯医学研究所、美国国立卫生研究院、麻省理工学院 K. Lisa Yang ICoN 中心以及麻省理工学院 K. Lisa Yang 和 Hock E. Tan 分子治疗中心。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2024/new-computational-technique-could-help-engineer-useful-proteins-0403