宾夕法尼亚大学佩雷尔曼医学院的研究人员设计了一种绘制“转录组”的新方法 - 由细胞活性基因表达的RNA读数集合。RNA既是DNA与产生生命功能的蛋白质之间的分子桥梁,又是分子工具箱,共同帮助这些蛋白质发挥作用。因此,RNA以各种形式存在,每种形式都具有特定的作用和目的,并非所有形式都被完全理解。
利用这种新方法进一步阐明RNA在细胞中的作用,研究小组确定了哺乳动物中的RNA变异体,这些变体在以前的技术中基本上是不可见的。研究人员还证明,RNA中的这些“黑暗”变异在哺乳动物细胞中非常常见,并可能在组织,发育和人类疾病的基因调控中发挥作用。该团队计划使用现在免费的软件进行分析,以查询神经退行性疾病,癌症和其他疾病中的异常细胞。
“这对我们来说非常令人兴奋,而且我认为对于研究界来说,除其他原因之外,因为我们现在可以回顾大量现有的转录组数据,知道会出现新的和重要的事情,”资深作者Yoseph说。 Barash博士,遗传学助理教授。Barash还是宾夕法尼亚大学生物医学信息学研究所的高级研究员。
Barash及其团队的报告,包括联合主要作者Jorge Vaquero-Garcia,Alejandro Barrera和Matthew R. Gazzara,Penn的所有研究人员,本周在eLife在线发布。
不完整的图片
Barash的实验室主要致力于通过机器学习和计算建模研究RNA转录本及其变异。自20世纪70年代以来,科学家已经知道一种主要的变异机制,称为选择性剪接。当蛋白质编码基因首先转录成RNA时,细胞机器将新鲜RNA转录物切成片段。然后它丢弃非蛋白质编码区段(内含子)并将蛋白质编码区段(外显子)拼接回到完整的信使RNA转录本中,后者随后被翻译成蛋白质。
有时,根据细胞中的情况,剪接机器故意省略一个或多个外显子中的剪接,结果是较短的信使-RNA转录物,其反过来编码不同形式的蛋白质。以这种方式,单个基因可以编码相同蛋白质的多种形式,每种形式具有其自身独特的生物学作用,例如仅在一组细胞类型中起作用或仅在胎儿发育期间起作用。已知偏离正常的剪接模式会导致许多疾病。
生物学家长期存在的一个问题是,他们没有简单,无差错的方法来识别和量化样本中所有不同的信使RNA剪接变体。现代RNA测序技术(RNA-seq)是一种强大的科学工具,但主要产生仅信使RNA片段的序列。这些片段序列基本上必须在复杂的软件和现有的RNA数据库的帮助下缝合在一起,以获得转录组的完整图像。但这张照片不一定是完整的。
“与实际的信使RNA转录本相比,来自RNA-seq的读数很少,而且也很短,所以你不能直接知道那些读物的转录本是什么,”Barash说。“因此,你也不会直接知道这些成绩单的丰富程度。”
转录组的新视角
Barash及其团队设计的新方法首先绘制了他们称之为局部剪接变异(LSV)的图谱 - 基本上是外显子之间的可变连接,外显子是跨越多个外显子的可检测序列。
“这些是细胞的剪接机器可以选择将哪个外显子拼接到另一个外壳的地方,”Barash说。
该团队开发了用于从RNA-seq数据生成LSV图谱的软件,并将这些数据与现有RNA数据库相结合,以产生包括普通的,已知的剪接变体以及其他方法无法检测的复杂剪接变体的图片。
为了评估迄今为止看不见的转录组部分的重要性,该团队使用新的MAJIQ软件(模拟替代结合包涵体定量)来分析来自各种物种(包括蜥蜴,小鼠和人类)的RNA-seq数据。该分析显示,复杂的剪接变体比以前认为的更为常见,例如,人类样品中约37%的转录组变异。
“这些变化有点像月亮的黑暗面,”巴拉什说。“他们已知存在,但我们缺乏照亮它们的能力 - 现在它们构成了人类信使RNA变异的三分之一。”
用MAJIQ检测的复杂剪接变体包括来自基因Ptbp1的高度保守但以前未报告的变体,已知其对于正确的大脑发育是关键的。进一步的分析表明,新发现的变异体通过引入“毒物外显子”参与控制出生后Ptbp1的表达,该毒物外显子标记随后降解的转录物。
与对照相比,使用来自人类突触相关基因CAMK2D的MAJIQ检测到的另一种复杂变体在阿尔茨海默病患者的脑组织中表达减少约40%。该团队后来在第二个更大的RNA-seq数据集中发现了类似的下降,这也是阿尔茨海默病的病例。总体而言,该团队确定了大约200例阿尔茨海默病患者的改变剪接病例,这些病例在两项独立研究中具有可重复性。
“我们认为这些研究结果只是冰山一角,”巴拉什说。他和他的同事们现在计划对其他疾病的复杂剪接变异进行进一步的基于MAJIQ的研究。然而,Barash强调MAJIQ软件包现在可以免费提供给其他学术研究人员,他们都可以以自己的方式使用它。除了MAJIQ之外,该团队还制作了一个补充软件包VOILA,使研究人员能够可视化MAJIQ检测到的复杂剪接变体。