文献解读 | Nature Plants期刊发表基于基因组组装揭示模式蕨类植物的动态基因组进化高分文章
大多数蕨类植物的巨大基因组和复杂度,阻碍了蕨类植物生物学和陆地植物的进化研究。本研究对水蕨(Ceratopteris richardii)进行了染色体基因组组装和相关的甲基化组、转录组和代谢组分析。揭示了一个非常动态的蕨类基因组进化历史,包括在大约6000万年前最近的全基因组复制后,基因组内容和结构的快速变化(大量的基因丢失、大量的串联重复和来自细菌的多个水平基因转移,导致防御相关基因家族的多样化等),结合基因家族分析表明,与种子发育相关的基因来自于控制蕨类孢子囊发育的基因,为研究种子植物的进化提供新见解。
文章题目:Dynamic genome evolution in a model fern
发表期刊:Nature Plants(IF=17.352)
发表时间:2022.09.01
主要研究结果
1、转座子对基因组大小和内含子长度的影响
该研究利用PacBio测序并组装了7.46 Gb大小的Ceratopteris richardii(基因型为Hn-n)的基因组。该组装包含10785个contigs,contig N50为2.3Mb,Scaffold N50为182Mb,93.5%的组装序列挂载到Ceratopteris的39条染色体中(表1),是迄今为止最大的具有染色体组装的单倍体基因组之一。
表1 染色体规模组装数据汇总
Ceratopteris基因组重复序列比例为85.2%,LTR占67.0%,其中Ty3超家族占基因组的23.8%,Ty1超家族占28.2%(图1c)。结合从头预测和多样本Iso-Seq以及RNA-seq的转录证据,共注释得到36,857个蛋白质编码基因,BUSCO为94.8%(图1a)。
该研究在Ceratopteris中鉴定出了706个长度超过100 kb的基因,内含子占30%,其中17,745个内含子的长度超过10 kb,且内含子长度范围较大(图1d)。进一步研究发现Ceratopteris的总基因长度与表达量之间没有相关性(图1e),说明其可以作为研究内含子长度和含量对基因表达和mRNA成熟功能等方面的研究模型。
图1 Ceratopteris richardii生命周期和基因组组装特征
2、WGD被快速进化的基因组所掩盖
该研究从Ceratopteris的Ks分布分析中,可以推断出一个单一的WGD事件,其Ks峰值为1.3(图2a)。使用Multi-tAxon Paleopolyploidy Search(MAPS)和NOTUNG对超过5000个基因家族进行系统发育分析,发现在过去3 Myr中Ceratopteris的谱系存在两个WGDs(图2b)。表明,Ceratopteris与其姐妹枝分化后的最新的WGD(CERAα)仅在62Ma(图2b)。
图2 Ceratopteris进化中的多倍体证据
3、Ceratopteris的DNA甲基化
作者对Ceratopteris进行甲基化测序和分析,发现CHG甲基化在重复序列和大片段内含子中富集较多(图3a-e),而CHH甲基化最初出现在Ceratopteris基因组中缺失,因为它不容易与背景区分开(图3a)。此外,该研究在Ceratopteris中发现了gbM(gene body DNA methylation),gbM只与CG位点的甲基化相关,并且存在于组成性表达、进化缓慢并具有“管家”功能的基因中(图3e)。
图3 Ceratopteris的全基因组甲基化分析
4、跨越绿色植物的基因家族进化
尽管Ceratopteris配子体和孢子体在形态和生理上存在很大差异,但分别只有273个和1397个基因在配子体和孢子体中特异性表达(图4a),与此同时,346个基因仅在减数分裂组织(可育叶和孢子囊)中表达,而1270个基因仅在非减数分裂组织中表达,超过30,000个基因在两个数据集中存在表达(图4b),该结果说明叶片和种子发育基因是从孢子囊发育网络中得到的。
为了更好地了解从seedless植物到种子、花和果实生产的进化转变,该研究鉴定并分析了与拟南芥和其他被子植物开花诱导相关的基因家族。在Ceratopteris中鉴定了10个FT基因,在这10个基因中,有9个FT同源基因存在于开花植物中缺失的亚科中,而其余一个最普遍表达的FT基因存在于拟南芥中包含AtMFT基因的分支中(图4c)。
此外,该研究发现7个Ceratopteris植物FT同源物仅在减数分裂组织(可育叶片和孢子囊)中高表达,表明这些FT同源基因可能与蕨类植物的孢子发育有关,且早于被子植物调节开花的功能(图4c)。
图4 植物繁殖和结构的基因家族转录组和进化分析
该研究在Ceratopteris基因组中鉴定出35个MADS-box基因,通过系统发育重建,分别分为8个I型和27个II型MADS-box基因。根据对II型基因的系统发育分析,将II型基因进一步细分为MIKCC-和MIKC*-group基因(图4d)。MIKCC-group基因对花的发育和进化至关重要,作者从中发现了两个新的MIKCC-group的MADS-box基因。
5、HGT与防御基因的进化
该研究在Ceratopteris的9号染色体上发现了36个串联重复的aerolysin-like蛋白编码基因(图5a)。该基因在细菌中有较多研究,其被推测为在不同的生物界中反复发生HGT,并在 Ceratopteris不同组织中发生亚功能化;9号染色体上的34个aerolysin-like基因在茎和根中高表达,34号染色体上的3个aerolysin-like基因均在不育叶片中高表达。这些aerolysin-like基因可能从细菌水平转移到早期的陆地植物。
此外,作者发现在11号染色体上发现了phenolic acid decarboxylases(PADs)基因存在串联重复。迄今为止,PAD基因仅在细菌中被发现。与aerolysin-like基因相似,PAD在Ceratopteris基因组中亚功能化,有20个基因在可育叶片、孢子囊和配子体中高表达,而其余6个基因一般在所有组织和发育阶段中表达(图5c)。
综上,HGT以及这些防御基因通过串联重复和亚功能化的快速多样化,为陆地植物进化和新基因整合研究提供了独特见解。
图5 Ceratopteris中HGT和药用化合物
6、蕨类植物基因组学的药用潜力
蕨类植物长期以来一直用于世界范围内的传统医学,最近已成为治疗癌症、糖尿病和骨关节炎的药物化合物的来源。在本研究中,作者利用Ceratopteris基因组资源,对孢子体组织进行代谢物分析,研究Ceratopteris可能产生的药物化合物及其产生的基因。
作者从Ceratopteris可育叶组织的代谢物谱鉴定了几种已知的化合物,包括8种蕨苷、7种黄酮类化合物、3种咖啡酸和2种萜类化合物(图5d)。在Ceratopteris中鉴定出906个高可信度的代谢物,其中57种是仅在Ceratopteris中检测到的独特化合物,131种是新化合物(无法在已知代谢组数据库中得到注释)。
联合分析确定了Ceratopteris中组成类黄酮生物合成途径的基因、表达模式和代谢物,Ceratopteris基因组促进对有效要用化合物的分子起源和功能理解,有利于在蕨类植物中发现药物,以改善人类健康。
总结
长期以来的假设是蕨类植物中WGD较多,本文通过Ceratopteris的基因组进化分析显示,至少两个WGD事件发生在300万年的蕨类植物进化历程中。由于频繁的串联重复、高分离(fractionation)率和基因组重排,使得WGD的共线基因组片段不明显。与防御相关的基因家族通过广泛的串联复制而扩展,可能来源于HGT获得细菌相关基因。此外,本文研究了涉及花和种子发育的基因进化以及植物结构与蕨类基因的同源基因,对研究被子植物生殖发育有重要意义。
Ceratopteris基因组数据为蕨类的基因功能研究提供了重要资源,为植物生物学、基因组进化、生物技术和医学研究提供了支持。
参考文献:
Marchant, D.B. et al. Dynamic genome evolution in a model fern. Nat. Plants, 2022.
AG代理基因使用Nanopore平台完成了全球首个大型复杂植物基因组菊花基因组的组装和后续分析工作。现已完成500余例真核生物的Nanopore及PacBio基因组测序及组装,服务项目包括:哺乳动物、鱼类、农作物、药用植物、昆虫、原虫、真菌等多类型复杂样本。由AG代理基因主导提出并推动千种本草基因组计划,并构建药用植物基因组数据库,已发表多篇药用植物基因组高水平文章,引领药用植物基因组研究前沿。