教机器辨认水晶 - 美国大学新闻

并不是所有的蛋白质晶体都像生长在太空中的这些晶体那样呈现出五颜六色的彩虹色。但无论它们的长相如何，它们对科学家来说都很重要。资料来源:美国宇航局马歇尔航天飞行中心(NASA- msfc)。

蛋白质晶体通常不像宝石那样闪闪发光。但是，不管它们的外表如何，每一种都是珍贵的，对科学家来说。

杜克大学化学和物理教授帕特里克·查博诺(Patrick Charbonneau)和一群来自世界各地的科学家，与谷歌Brain的研究人员合作，使用最先进的机器学习算法来发现这些稀有而珍贵的晶体。他们的工作可以使研究人员更容易地绘制蛋白质的结构图，从而加速药物的发现。

Charbonneau说:“每当你因为蛋白质晶体非常罕见而错过它们时，你就有可能错过一项重要的生物医学发现。”

了解蛋白质的结构是理解其功能的关键，并可能设计出针对其特定形状的药物。但是传统的确定这些结构的方法，称为x射线晶体学，要求蛋白质结晶。

蛋白质的结晶很难
2真的很难。与组成盐和糖等常见晶体的简单原子和分子不同，这些大而笨重的分子(每个分子可以包含成千上万个原子)很难将自己排列成构成晶体基础的有序阵列。

Charbonneau说:“像蛋白质这样的物体能够自我组装成像水晶一样的东西，这有点像魔法。”

即使经过几十年的实践，科学家们也不得不在一定程度上依靠反复试验来获得蛋白质晶体。在分离出一种蛋白质后，他们将其与数百种不同类型的液体溶液混合，希望找到正确的配方，诱使它们结晶。然后他们在显微镜下观察每一种混合物的液滴，希望能发现生长中的晶体中最小的斑点。

夏博诺说:“你必须手动地说，那里有一颗水晶，那里没有，那里有一颗，通常是没有，没有，没有。”“不仅付钱让人们这样做很昂贵，而且人们也会失败。他们会感到疲倦、懒散，这会影响他们的其他工作。”

机器学习软件搜索点和边(左)来识别溶液水滴图像中的晶体。它还可以识别什么时候非晶固体形成(中间)和什么时候没有固体形成(右边)。

Charbonneau认为，或许深度学习软件也应该能够识别构成溶液中晶体的点和边缘。深度学习软件现在已经能够识别照片中的人脸，即使它们是模糊的或从侧面捕捉到的。

来自学术界和工业界的科学家们聚集在一起，将50万张蛋白质结晶实验的图像收集到一个名为MARCO的数据库中。根据人类的评估，这些数据详细说明了哪些蛋白质混合物会导致结晶。

随后，该团队与谷歌Brain的文森特·凡霍克(Vincent Vanhoucke)领导的团队合作，应用最新的人工智能技术帮助识别图像中的晶体。

在对数据子集“训练”了深度学习软件之后，他们将其释放到完整的数据库中。人工智能在95%的时间里能够准确识别晶体。据估计，人类识别水晶的正确率只有85%。

“而且它比人类做得好得多，”Charbonneau说。“我们有点惊讶，因为大多数人工智能算法都是用来识别猫或狗的，不一定是像晶体边缘这样的几何特征。”

Charbonneau说，其他研究团队已经要求使用人工智能模型和MARCO数据集来训练他们自己的机器学习算法来识别蛋白质结晶实验中的晶体。这些进步应该能让研究人员把更多的时间放在生物医学发现上，而不是盯着样本看。

Charbonneau计划利用这些数据来了解蛋白质是如何自我组装成晶体的，这样研究人员就可以减少对这种“魔法”发生的依赖。

Charbonneau说:“我们正试图利用这些数据，看看我们是否能对蛋白质自组装的物理化学过程有更多的了解。”

引文:“使用深度卷积神经网络对结晶结果进行分类”，Andrew E. Bruno等。《公共科学图书馆·综合》，2018年6月20日。DOI: 10.1371 / journal.pone.0198883

作者:Kara Manke