分类
麻省理工学院新闻

搜索算法揭示了近200种新型CRISPR系统

Illustration of bacteria. Among ordered lines of bacteria, a single bacterium is highlighted in a circle, and a DNA strand can be seen within

微生物序列数据库包含大量有关酶和其他分子的信息,这些信息可以适用于生物技术。但近年来,这些数据库变得如此之大,以至于它们变得难以有效地搜索感兴趣的酶。

现在,麻省理工学院麦戈文脑研究所、麻省理工学院和哈佛大学布罗德研究所以及美国国立卫生研究院国家生物技术信息中心(NCBI)的科学家开发了一种新的搜索算法,该算法已经在细菌基因组中鉴定了188种新的罕见CRISPR系统,包括数千个单独的系统。这项工作今天发表在 《科学》杂志上。

该算法来自CRISPR先驱研究员张峰教授的实验室,使用大数据聚类方法来快速搜索大量基因组数据。该团队使用他们的算法,称为基于快速局部敏感哈希的聚类(FLSHclust)来挖掘三个主要的公共数据库,其中包含来自各种不寻常细菌的数据,包括在煤矿,啤酒厂,南极湖泊和狗唾液中发现的细菌。科学家们发现了数量惊人、种类繁多的CRISPR系统,包括可以编辑人类细胞DNA的系统,可以靶向RNA的系统,以及许多具有各种其他功能的系统。

与目前的Cas9系统相比,新系统可能被用于编辑哺乳动物细胞,其脱靶效应更少。有朝一日,它们也可以用作诊断或作为细胞内活动的分子记录。

研究人员表示,他们的搜索凸显了CRISPR前所未有的多样性和灵活性,并且随着数据库的不断发展,可能还有更多罕见的系统尚未被发现。

“生物多样性是一个宝库,随着我们继续对更多的基因组和宏基因组样本进行测序,越来越需要更好的工具,如FLSHclust,来搜索序列空间以找到分子宝石,”该研究的共同资深作者,麻省理工学院詹姆斯和帕特里夏·柏翠丝神经科学教授,在大脑和认知科学以及生物工程系联合任命。Zhang还是麻省理工学院麦戈文脑研究所的研究员,布罗德研究所的核心成员,以及霍华德休斯医学研究所的研究员。NCBI的杰出研究员Eugene Koonin也是该研究的共同资深作者。

搜索CRISPR

CRISPR代表成簇的规则间隔短回文重复序列,是一种细菌防御系统,已被设计成许多用于基因组编辑和诊断的工具。

为了挖掘新型CRISPR系统的蛋白质和核酸序列数据库,研究人员开发了一种基于从大数据社区借鉴的方法的算法。这种技术称为局部敏感哈希,它将相似但不完全相同的对象聚集在一起。使用这种方法,该团队能够在数周内探测数十亿个蛋白质和DNA序列,这些序列来自NCBI,其全基因组霰弹枪数据库和联合基因组研究所,而以前寻找相同物体的方法需要数月时间。他们设计了他们的算法来寻找与CRISPR相关的基因。

“这种新算法使我们能够在足够短的时间范围内解析数据,以便我们实际上可以恢复结果并做出生物学假设,”Soumya Kannan博士说,他是该研究的共同第一作者。Kannan在研究开始时是Zhang实验室的研究生,目前是哈佛大学的博士后和初级研究员。Han Altae-Tran PhD ’23 是研究期间张氏实验室的研究生,目前是华盛顿大学的博士后,是该研究的另一位共同第一作者。

“这证明了当你改进探索方法并使用尽可能多的数据时,你可以做些什么,”Altae-Tran说。“能够提高我们的搜索规模真的很令人兴奋。”

新系统

在他们的分析中,Altae-Tran、Kannan和他们的同事注意到,他们发现的数千个CRISPR系统分为几个现有的类别和许多新的类别。他们在实验室中更详细地研究了几个新系统。

他们发现了已知I型CRISPR系统的几种新变体,这些变体使用32个碱基对长的引导RNA,而不是Cas9的20个核苷酸引导。由于它们的向导RNA较长,这些I型系统可用于开发更精确的基因编辑技术,该技术不易发生脱靶编辑。Zhang的团队表明,其中两个系统可以对人类细胞的DNA进行短暂的编辑。由于这些I型系统的大小与CRISPR-Cas9相似,因此它们可能会使用与CRISPR相同的基因递送技术递送给动物或人类的细胞。

其中一个I型系统还显示出“附带活性”——在CRISPR蛋白结合其靶标后核酸的广泛降解。科学家们已经使用类似的系统来制造传染病诊断,例如SHERLOCK,一种能够快速感应单个DNA或RNA分子的工具。Zhang的团队认为,新系统也可以适用于诊断技术。

研究人员还发现了一些IV型CRISPR系统的新作用机制,以及精确靶向RNA的VII型系统,这可能用于RNA编辑。其他系统可能被用作记录工具——基因表达时间的分子文件——或作为活细胞中特定活动的传感器。

挖掘数据

科学家们表示,他们的算法可以帮助寻找其他生化系统。“任何想要使用这些大型数据库来研究蛋白质如何进化或发现新基因的人都可以使用这种搜索算法,”Altae-Tran说。

研究人员补充说,他们的发现不仅说明了CRISPR系统的多样性,而且大多数都是罕见的,只存在于不寻常的细菌中。“其中一些微生物系统只存在于煤矿的水中,”Kannan说。“如果有人对此不感兴趣,我们可能永远不会看到这些系统。扩大我们的采样多样性对于继续扩大我们可以发现的多样性非常重要。

这项工作得到了霍华德休斯医学研究所的支持;麻省理工学院的 K. Lisa Yang 和 Hock E. Tan 分子治疗中心;Broad Institute Programmable Therapeutics 捐赠者;潘兴广场基金会,威廉·阿克曼(William Ackman)和内里·奥克斯曼(Neri Oxman);詹姆斯和帕特里夏·柏翠丝;BT慈善基金会;阿斯内斯家庭基金会;肯尼斯·格里芬(Kenneth C. Griffin);菲利普斯家族;郑大伟;和罗伯特·梅特卡夫。

新闻旨在传播有益信息,英文版原文来自https://news.mit.edu/2023/search-algorithm-reveals-nearly-200-new-kinds-crispr-systems-1123