分类
加州大学圣地亚哥分校新闻

计算工具为新的和改进的鸟类家谱的重建提供燃料

Portrait of a man in a light blue collared shirt standing against an outdoor background consisting of trees and shrubs.

一个国际科学家团队建立了迄今为止最大、最详细的鸟类家谱——一张复杂的图表,描绘了 363 种鸟类之间 9300 万年的进化关系,占所有鸟类家族的 92%。

这一进步在很大程度上要归功于加州大学圣地亚哥分校工程师开发的尖端计算方法,以及该大学在圣地亚哥超级计算机中心最先进的超级计算资源。这些技术使研究人员能够高精度和快速地分析大量基因组数据,为构建有史以来最全面的鸟类家谱奠定了基础。

4月1日发表在《自然》和《美国国家科学院院刊》(PNAS)上的两篇补充论文详细介绍了这一进展。《自然》杂志上报道的更新的家谱揭示了6600万年前灭绝恐龙的灾难性大规模灭绝事件后鸟类进化历史的模式。研究人员观察到,早期鸟类的有效种群规模、替代率和相对大脑大小急剧增加,这为这一关键事件之后推动鸟类多样化的适应机制提供了新的线索。在PNAS上发表的配套论文中,研究人员仔细检查了新家谱的一个分支,发现火烈鸟和鸽子的亲缘关系比以前的全基因组分析显示的更远。

这项工作是 鸟类10,000基因组(B10K)计划的一部分,该项目由哥本哈根大学,浙江大学和加州大学圣地亚哥分校领导的多机构工作,旨在为大约10,500种现存鸟类生成基因组序列草案。

“我们的目标是重建所有鸟类的整个进化历史,”加州大学圣地亚哥雅各布斯工程学院电气和计算机工程教授Siavash Mirarab说,他是 Nature 论文的共同资深作者,也是 PNAS 论文的第一作者和共同通讯作者。

拼凑过去

这些研究的核心是一套称为ASTRAL的算法,Mirarab的实验室开发了该算法,以前所未有的可扩展性,准确性和速度推断进化关系。通过利用这些算法的强大功能,该团队整合了来自60,000多个基因组区域的基因组数据,为他们的分析提供了强大的统计基础。然后,研究人员检查了基因组中各个片段的进化历史。从那里,他们拼凑出一个基因树的马赛克,然后将它们编译成一个综合的物种树。这种一丝不苟的方法使研究人员能够构建一种新的和改进的鸟类家谱,即使在历史不确定的情况下,也能以非凡的精确度和细节描绘复杂的分支事件。

“我们发现,我们在分析中添加数万个基因的方法对于解决鸟类之间的进化关系实际上是必要的,”Mirarab说。“你真的需要所有的基因组数据来恢复6500万至6700万年前这个特定时期发生的事情。

该团队之所以能够在海量数据集上进行这些分析,是因为Mirarab的实验室将他们的计算方法设计为在强大的GPU机器上运行。他们在加州大学圣地亚哥分校圣地亚哥超级计算机的 Expanse 超级计算机上进行了计算。

“我们很幸运能够使用如此高端的超级计算机,”米拉拉布说。“如果没有 Expanse,我们就无法在合理的时间内对如此庞大的数据集运行和重新运行我们的分析。”

研究人员还研究了不同基因组采样方法对树准确性的影响。他们表明,两种策略 – 对每个物种的许多基因进行测序,以及对许多物种进行测序 – 结合在一起对于重建这一进化历史非常重要。

“因为我们混合使用了这两种策略,我们可以测试哪种方法对系统发育重建有更强的影响,”哥本哈根大学生物学教授、 《自然 》论文的主要作者Josefin Stiller说。“我们发现,从每个生物体中取样许多基因序列比从更广泛的物种中取样更重要,尽管后一种方法有助于我们确定不同群体何时进化。

Detailed chart connecting evolutionary relationships between various bird species.
更新后的鸟类家谱发表在《自然》杂志上,描绘了363种鸟类之间9300万年的进化关系。图片来源: Jon Fjeldså(图纸)和 Josefin Stiller

纠正过去

借助他们先进的计算方法,研究人员还能够揭示他们在之前的一项研究中发现的一些不寻常的东西:鸟类基因组中一条染色体的特定部分在数百万年内保持不变,没有预期的基因重组模式。

这种异常最初导致研究人员错误地将火烈鸟和鸽子归类为进化表亲,因为基于DNA的这一不变部分,它们似乎密切相关。这是因为他们之前的分析是基于48种鸟类的基因组。但是,通过使用363个物种的基因组重复分析,出现了一个更准确的家谱,使鸽子远离火烈鸟。此外,使用脊椎动物基因组计划(VGP)提供的六个高质量基因组 – 由洛克菲勒大学神经生物学教授Erich Jarvis领导 – Mirarab及其同事能够检测并假定解释这种令人惊讶的模式。

“令人惊讶的是,这段被抑制的重组时期可能会误导分析,”佛罗里达大学生物学教授、 PNAS 论文的共同通讯作者爱德华·布劳恩说。“因为它可能会误导分析,它实际上可以在未来6000多万年内被探测到。这是很酷的部分。

后续步骤

这项工作的影响远远超出了研究鸟类的进化历史。Mirarab实验室开创的计算方法已成为重建各种其他动物进化树的标准工具之一。

展望未来,该团队将继续努力构建鸟类进化的完整图景。生物学家正在努力对其他鸟类的基因组进行测序,希望将家谱扩展到包括数千种鸟类属。与此同时,由Mirarab领导的计算科学家正在改进他们的算法,以适应更大的数据集,以确保未来研究中的分析能够高速准确地进行。

《自然》 杂志论文:“家族级基因组揭示的鸟类进化的复杂性”。

PNAS 论文:“抑制重组区域误导了新鸟类系统发育学。

Drawing of different birds and a chromosome
在发表在PNAS上的研究中,研究人员仔细检查了更新的鸟类家谱的一个分支,发现包括火烈鸟和鸽子在内的群体比以前的全基因组分析显示的更远亲,并将结果归因于4号染色体的一个不寻常的区域。图片来源:Ed Braun(绘画)、Daniel J. Field(鸟类图像)和 Siavash Miarab

新闻旨在传播有益信息,英文版原文来自https://today.ucsd.edu/story/computational-tools-fuel-reconstruction-of-new-and-improved-bird-family-tree