文献解读 | 紫荆基因组和豆科植物系统基因组研究为新基因进化提供见解
豆科(Fabaceae)是被子植物中的一个大科,生物多样性高,含多种重要的经济作物和可供生物固氮研究的模式植物。Cercis chinensis(紫荆)属于最早从豆科分化而来的紫荆亚科,对豆科的系统发育研究和新基因预测具有重要意义。
该研究组装了352.84 Mb的C. chinensis基因组,并成功挂载到7条染色体上,预测蛋白编码基因为30612个,与其他豆科植物基因组相比,C. chinensis没有发生特异的多倍化事件。系统发育分析表明,豆科植物许多基因家族具有谱系特异性,其中数十个基因是由基因间区进化而来的新基因,被认为是de novo originated新基因。它们与已形成的基因在CDS长度、外显子数量、GC含量和表达模式等方面存在显著差异,为豆科植物新基因进化研究提供重要的线索。
文章题目:The nearly complete assembly of Cercis chinensis genome and Fabaceae phylogenomic studies provide insights into new gene evolution
发表期刊:Plant Communications(IF=8.625)
发表时间:2022.08.10
主要研究结果
1、基因组测序组装和注释
以玉米和番茄为对照,通过流式细胞术检测,预估C. chinensis(紫荆)基因组大小约330-340 Mb,基于k-mer分析的结果,预估基因组杂合度为0.78%。使用PacBio HiFi测序,共获得39.28 Gb reads(~130.9×),结合Hi-C技术将组装好的contig挂载到7条伪染色体上,挂载率为94.1%,基因组组装大小为331.85 Mb。
结合转录组辅助注释、同源注释和从头注释的方法,共预测到30,612个蛋白编码基因,重复序列占全基因组50.28%,BUSCO评估为98.3%,表明C. chinensis基因组完整性较高。
图1 C. chinensis基因组概况
2、豆科植物基因家族扩张与复制
为研究豆科植物进化过程中的基因含量、潜在基因家族(GF)和大规模的基因复制(GD)事件,该研究对33个物种(含22个豆科植物和11个除豆科外的被子植物)基因组进行了比较基因组分析(图2C)。
本研究采用3种方法检测豆科不同谱系中可能发生的大规模GD事件,对33个物种基因组进行Tree2GD分析,发现大豆属的祖先(16,754 GDs)和蝶形花亚科的祖先(3,786 GDs)发生了2个多倍体化事件,而云实亚科的祖先仅检测到657 GDs(图2C)。共线性分析表明,C. chinensis没有发生近期的WGDs(图2A)。
共线性分析和Ks分析表明,C. chinensis最近发生了许多小规模的基因复制事件,而不是全基因组复制事件(图2B,D-F)。在C. chinensis基因组中,大部分block或基因在Coffea canephora中鉴定出单个同源拷贝,而在G. max中鉴定出4个同源拷贝,并经历了两轮多倍体化事件(图2A)。
图2 C. chinensis与其他被子植物基因复制鉴定的比较分析
3、de novo基因和其他基因的表达和结构模式
为了检测豆科祖先及其不同谱系分化后的DNGs(de novo originated new genes),将每个分支获得的所有HOG(Hierarchical Ortholog Groups)蛋白与NCBI NR数据库进行比对,数据库中忽略豆科植物的所有基因。对这33个基因组进行系统基因组分析发现,共有257个HOGs是de novo起源的,其中豆科的祖先发现了43个,蝶形花亚科的祖先发现了34个,大豆属的祖先发现了68个,远多于其他谱系(图3A),并在进化过程中发生了进一步的gain-and-loss事件。
通过对G. max不同进化枝上DNGs的比较(图3C)发现,DNGs基因结构相对简单,在进化过程中变得更加复杂。随后,作者比较G. max、S. tora和C. chinensis不同组织的转录组数据,进一步研究DNGs表达的组织特异性。发现DNGs在不同组织中表达水平相对较低,但显示出较高的组织特异性(图3I-K)。这些结果表明,DNGs最初在有限的组织中表达,但随着进化而广泛转录。
图3 豆科植物不同谱系的de novo基因检测
基因家族G. max(glyma . 07g2046001)的DNG在N端具有CLE结构域,暗示其可能参与了NIN转录调控的早期根瘤的形成。在Prunus persica和Castanea mollissima等外群物种中发现DNG是由真核祖先基因间区域的非编码序列与复制的CEL1片段合并产生的(图4)。由于在G. max和C. mollissima的组织中都发现了DNG的同源表达(图4C),表明DNG是通过“late ORF–early transcription”模式获得,并通过整合CLE结构域在豆科植物的结瘤调节中发挥重要作用。
图4 起源于蝶形花亚科祖先的de novo基因
此外,G. max的一个基因(glyma . 14g2124001)是在豆科的祖先种上新产生的,在物种多样化后也表现出来,如在C. chinensis基因组(evm.model.ctg8.1635)中发现了一个同源基因。此外,P. persica和C. mollissima上的DNG同源序列在所有选定的组织中都被转录(图5),提示DNG起源于先前研究提出的“late ORF–early transcription”模型。
图5 起源于豆科祖先的de novo基因
总结
本研究获得了紫荆亚科分支Cercis chinensis(紫荆)的基因组组装,对豆科植物系统基因组学的研究起到了重要的促进作用。通过比较基因组研究发现,在蚕豆科植物物种多样化后,许多基因家族具有谱系特异性,在多倍体化的豆科植物谱系中发现了新的基因,为豆科植物新基因的进化模式研究提供了重要的线索,为植物系统基因组研究提供了有价值的资源。
参考文献:
Li J, et al. The nearly complete assembly of Cercis chinensis genome and Fabaceae phylogenomic studies provide insights into new gene evolution. Plant Commun. 2022.