人体组织的全长转录本变异图谱登顶顶级期刊《Nature》,揭秘迄今为止最大的人类全长转录本数据集
概述
1.使用Nanopore全长转录组技术鉴定到70,000多个人新转录本,并使用质谱验证蛋白表达
转录结构的调控产生了转录本的多样性,这在人类疾病中起着重要的作用。作者使用基于Nanopore平台的全长转录组测序,开展了迄今为止最大的长reads RNA数据集研究,鉴定了70,000多个注释基因的新转录本,并使用质谱验证了10%的新转录本的蛋白表达。
2.开发程序包LORALS分析等位基因遗传效应
开发了一个程序包LORALS,通过长reads等位基因特异性分析,解析罕见和常见变异对转录组的遗传效应。作者描述了等位基因特异性表达和转录本结构事件,为常见和罕见遗传变异引起的特定转录本改变提供了新见解。
3.细胞环境修饰引发的遗传调控作用
将PTBP1(一种介导剪接的RNA结合蛋白)干扰后,发现由细胞环境修饰引发的遗传调控作用。最后,作者使用这个数据集来加强变异解释,并研究导致异常剪接模式的罕见变异。
文章主题:Transcriptome variation in human tissues revealed by long-read sequencing
发表杂志:Nature
发表时间:2022.08.03
主要结果
1.整体数据展示
在MinION和GridION平台上对来自56个供体和4个K562细胞株共90个样本进行全长cDNA进行了测序。这些样品同时进行二代转录组测序。从长reads数据获得的基因或转录本的定量与Illumina RNA-seq的高度一致。
相关性较低的基因和转录本在ONT数据中表达较低,例如:复杂度较高的基因和具有多个外显子的转录本。
2.鉴定转录本多样性
使用FLAIR对转录本进行定量分析并鉴定新的转录本,在21,067个基因中发现了93,718个转录本,其中77%是新转录本。在大多数情况下,一个基因通常注释一个转录本,而这项结果中在已注释基因中发现了更多的新转录本。
在这些新的转录本中,47,678个与注释转录本共享至少一个剪接位点,21,620个含有内含子,这表明尽管进行了Poly(A)富集步骤,但仍存在mRNA前体。另一方面,在新的转录本中有37%的外显子跳跃事件。
作者通过32个GTEx样本的蛋白质组质谱数据验证了这些新转录本,总共验证了2,575个新转录本。对于608个基因(每个基因多个转录本),作者验证了1,304个转录本,其中823个转录本是新的。
基于转录表达相关性和PCA分析,表明新转录本具有组织特异性表达模式。成千上万的转录本只在一个组织中表达,或者在所有9个组织中有不同的转录率。组织特异性转录本比例最高的组织是小脑半球、肝脏和成纤维细胞(占所有差异表达转录本的 8%),这与先前观察到的转录本高度多样性一致。
3.等位基因特异性表达分析
在长reads转录组测序的样本中,有64个还具有来自GTEx的阶段性全基因组测序信息,从而能够进行等位基因分析。
作者比较了ASE和ASTS事件,发现880个重要的ASE基因中有222个在ASTS中显示出显著的p值(π1=0.15)。当观察显著的ASTS时,这个比例更大,发现330个基因中有176个在ASE中显示显著的p值(π1=0.46)。这表明转录本结构的变化通常伴随着转录水平的变化,但相反的情况很少发生。
作者在5种 GTEx 成纤维细胞系中敲低PTBP1 RBP,发现了3,061个差异表达的基因,其中70%通过短reads数据验证,以及4,220个差异表达的转录本。在PTBP1敲低样本中,外显子跳跃和3'UTR替代事件在表达上调的转录本发生最明显。
然后作者比较了敲除样本和对照样本中的等位基因事件。显示了细胞环境的变化如何改变剪接调控,从而影响遗传变异的分子功能。
4.罕见变异的解析
最后,作者评估了使用新的转录注释和来自长reads的ASTS数据更好地解释罕见变异的潜力。作者用73,599个转录本补充了GENCODE v. 26注释,并使用VEP37(方法)从GTEx-WGS数据中重新注释遗传变异。长reads的等位基因数据提供了解释破坏转录调控的罕见变异的证据。
讨论
该研究提供了迄今为止最大的长reads RNA数据集,使用的材料来自细胞系和人体组织收集的GTEx项目。鉴定了71,735个新的转录本,这比任何其他研究的数目都要高,与发现的大量组织特异性新转录本一致。在高通量质谱蛋白质组数据中新转录本的高验证率的支持下,作者的数据对人类转录本注释做出了重要贡献。
长reads提供了绘制转录本等位基因效应的能力,而不仅仅是表达,从而提供了分析遗传变异对转录本顺式作用的机会。作者观察到大多数ASTS事件与ASE一致,表明基因对转录本使用的影响很少通过相互翻转的转录本表达发生,但通常伴随着总表达水平的变化,例如可能通过改变特定转录本的稳定性。
这些结果加强了对转录组重要性的新认识,不是在基因水平上,也不是在不精确定义的剪接水平上,而是对特定转录本及其变化和组合的详细描述,而这些结果很容易被长reads所捕获。鉴于影响转录结构的遗传变异在疾病风险中的作用,预计使用长reads数据对转录组进行高分辨率表征,将是发现疾病相关变异调控机制的重要方法。
参考文献:
Glinos, D.A., Garborcauskas, G., Hoffman, P. et al. Transcriptome variation in human tissues revealed by long-read sequencing. Nature (2022). //doi.org/10.1038/s41586-022-05035-y