2018年,加州理工学院生物学教授兼传统医学研究所研究员Yuki Oka的研究人员取得了重大发现:他们发现了一种介导口渴饱腹感的神经元或脑细胞。但他们遇到了一个问题:一种称为单细胞RNA测序(scRNA-seq)的最先进的技术无法在已知包含它们的脑组织样本(特别是来自称为培养基视前核的区域)中找到那些与口渴相关的神经元。
“我们知道我们添加到特征神经元中的基因标记在大脑的正中视前核中表达,但是当我们用scRNA-seq分析大脑的该区域时,我们没有看到该基因,”Oka说。“我们从许多同事那里听到了这一点 – scRNA-seq缺少他们知道应该存在的细胞类型和基因表达。我们开始想知道为什么会这样。
识别不同的细胞类型对于了解我们身体执行的大量功能至关重要,从感知口渴等健康过程到疾病状态下的细胞功能障碍。例如,许多研究人员目前正在寻找可能与特定疾病相关的细胞类型,例如帕金森病。确定这些过程中涉及的精确细胞类型对于所有这些研究都至关重要。现在,加州理工学院Oka实验室和德克萨斯大学西南医学中心Allan-Hermann Pool实验室之间的合作已经展示了如何优化scRNA-seq分析的关键步骤,以恢复通常被丢弃的缺失细胞类型和基因表达数据。
一篇描述这项工作的论文发表在9月11日的《自然方法》杂志上。
“我们改进了对现有最先进的单细胞RNA测序数据的分析,揭示了单个数据集中数百甚至数千个基因的表达,”Oka说。“实现这种类型的精度很重要,因为生物过程丰富而复杂。最近的研究已经在小鼠大脑中确定了5000多种不同的神经元类型,而人类大脑可能更复杂。我们需要我们的技术尽可能敏感和全面。
了解基因表达
你体内有数万亿个细胞,每个细胞都执行着各种功能,使你能够过上自己的生活,或者在某些情况下,会导致疾病。细胞通过其功能彼此区分。例如,免疫系统的杀伤性T细胞寻找并摧毁导致疾病的病原体,神经元发射大脑功能底层的电信号,皮肤细胞紧密地聚集在一起,形成与外界的屏障。研究人员目前已经确定了数千种不同的细胞类型,但其他独特的品种可能仍未被发现。
尽管细胞的形状和功能可能不同,但给定生物体中的大多数细胞都包含相同的遗传蓝图 – 基因组。基因组包含有关如何执行 任何 细胞任务的说明。构成基因组的基因写在DNA中,位于细胞核中。表达的基因被复制到RNA中,RNA被运出细胞核并进入细胞的其余部分以执行功能。
在任何给定的细胞(和细胞类型)中,只有特定的基因子集在给定的时间表达或打开。基因表达的这些变异上升到细胞类型的差异。
打个比方,想象一个庞大的图书馆,里面的书籍被分类到不同的部分。如果你想建造一架飞机,你可能只看看关于航空和机械的书籍。如果您对其他主题感兴趣,您可以浏览另一组书籍。单个生物体的细胞没有什么不同:虽然每个细胞都包含整个基因“库”,但只有那些与特殊细胞独特功能有关的基因才会在细胞中被激活。
改进基因表达估计技术
scRNA-seq是鉴定细胞类型的一种强大技术。通过这种方法,将细胞切开,并在其中表达的遗传信息用用作条形码的分子标签进行标记。scRNA-seq可以快速对单个组织样本中的数千个细胞执行此操作,每个细胞都接收自己独特的条形码。然后可以执行计算分析以确定哪些基因集在单个细胞中表达,计算机模型可以评估该数据以寻找模式并识别不同的细胞类型。
然而,该技术的一个问题是,某些RNA通常不包括在基因表达估计中,即使它们代表表达的基因。
Oka及其同事发现,原因与研究人员将测序数据映射到的所谓参考转录组的问题有关。例如,研究人员对小鼠基因组进行了广泛的研究,并对其进行了非常详细的标记或注释,创建了一个数字参考或“转录组”,可以绘制出DNA序列及其相应的基因。
研究人员发现,这种注释必须针对scRNA-seq进行优化,以防止基因表达信息的丢失 – 例如,如果位于DNA链尾端的基因注释不佳,或者相邻基因转录本之间存在广泛的重叠,则可能会出现这种情况。这种并发症可以阻止数千个基因的检测。(当使用高通量形式的scRNA-seq时,这些问题尤其明显,为了降低成本,只检查基因的尾端;大多数用于描述我们组织细胞复杂性的图谱都依赖于这些方法。
在鉴定不同的细胞类型时,精度和高分辨率非常重要。例如,假设两个细胞分别表达基因“A”、“B”、“C”和“D”,但只有一个细胞表达基因“E”,而另一个细胞不表达。如果测序技术没有捕获“E”的表达,那么数据将表明两个细胞是相同的,而实际上它们不是。
在前加州理工学院博士后学者和该研究的第一作者Pool的带领下,该团队优化了小鼠和人类基因组的参考转录组,并在几年的时间里建立了一个计算框架来修复其他生物体的参考转录组。
“优化参考转录组使我们能够看到细胞类型和状态,否则我们将忘记,”Pool说。“例如,通过我们优化的参考转录组,我们现在能够观察我们大脑区域中口渴,饱腹感和温度感应神经群体的全部曲目,我们怀疑这些神经群体会在那里但无法检测到。我们希望我们的方法在揭示现有和即将推出的大脑和其他器官细胞类型图谱中的新细胞和遗传多样性方面也非常有用。
该论文的标题为“使用优化的转录组参考回收缺失的单细胞RNA测序数据”。除了Pool和Oka之外,加州理工学院的共同作者还有前高级研究科学家Sisi Chen和计算生物学助理教授兼传统医学研究所研究员Matt Thomson。德克萨斯大学西南医学中心的Helen Poldsam也是合著者。资金由尤金麦克德莫特学者基金,加州理工学院西南大学Peter O’Donnell Jr.脑研究所,塞尔学者计划,Mallinckrodt基金会,麦克奈特基金会,克林根斯坦 – 西蒙斯基金会,纽约干细胞基金会和美国国立卫生研究院提供。
新闻旨在传播有益信息,英文版原文来自https://www.caltech.edu/about/news/invisible-cell-types-and-gene-expression-revealed-with-sequencing-data-analysis-improvement