“格物致知”论坛第二期Q&A
“格物致知”论坛第二期回放链接:
//eot.h5.xeknow.com/sl/1dHIx7
Q&A
张寿洲研究员
报告主题: 苏铁基因组和种子植物早期演化
Q:基因组测序的取材用的是雌性配子,那么是一个雌性配子吗,还是一堆雌性配子混合?
A:用的是雌配子体(即苏铁胚乳)单倍体样本。
Q:这四个毒蛋白基因,是转化的哪一个呢,还是四个都转了?这四个都有这个毒性功能吗?谢谢张老师了!
A:当时做的是攀枝花苏铁,后来做了德保苏铁,发现在攀枝花苏铁和德保苏铁中都有,但是拷贝数不同。查看339个苏铁目物种的转录组数据,发现仅仅在苏铁科的107个种中有毒蛋白基因,与河南大学合作,进行转化研究。
Q:老师您好,该基因组的注释做的非常好,BUSCO达到91%,比其他裸子植物做得好,那请问一下,咱们在注释的时候用了哪些特殊的方式?
A:您好,做注释的时候,我们用同源基因,转录组,和de novo 三套流程分别做注释。对于同源注释,需要优化blast和genewise流程。de novo 训练基因集时也需要优化流程,同时,用三代转录本reads做基因质量评估。此外,我们注释用的转录组非常多,几乎囊括了苏铁的各个组织。总而言之,在三套流程分别做注释时,要根据苏铁特有的基因结构,对流程做优化,得到的三套数据可靠的基因集后,最后用EVidenceModeler进行合并,最终得到了优质的注释结果。
Q:银杏中会不会也有毒蛋白基因?
A:目前没有发现,在最早一版的银杏数据中未找到。
Q:老师,这个苏铁的性别单一性别,他是如何繁殖的啊?
A:您好,伍德非洲铁E.woodii 1895年时发现的仅仅有雄性,截止到现在没有找到该种的雌株,科学家曾做过各种努力,试图通过与近缘种杂交并回交,获得一个该种的雌株,但努力均告失败。目前的繁殖主要靠雄株的吸芽,即在雄株个体的茎干上会长出一个个小个体,将这些吸芽切割下来进行种植即可。MADS-Y在苏铁中的发现,如果有很好的转化体系的话,可以公国基因编辑的手段,抑制雄性基因的表达获得雌株。利用花粉培养也是一个好的途径,但在苏铁中,目前成功的范例尚未见报道。
Q:张老师您好,请问您是如何检测水平基因转移的?
A:利用相应的软件进行检测,是否是细菌、真菌污染,有相应的方法进行排查。
Q:张老师好!请问性别决定的MADS_box基因属于哪一类基因?和其他该家族基因比较,有特别的结构域吗?谢谢。
A:我们挖掘到苏铁的性别可能与MADS-box转录因子中的B类基因有关, 在苏铁属、泽米铁属、澳洲大泽米属都得到了验证,而且该MADS-Y与银杏的GbMADS-4同源性很高,故此推测可能苏铁和银杏具有共通的性别决定机制。详细可参阅文章中的相关部分。
Q:老师 您刚刚讲到重复序列 有0.06%表达 我自己这里的有一个基因簇 这些基因一个都没有表达 您怎么看呢?
A:您好,我们这里提到的有0.06%表达的重复序列,是指的转座元件(transposon elements),转座元件因为会在基因组中进行跳跃,会影响基因组的稳定性,所以会通过甲基化机制被抑制表达,所以表达的重复序列很少。你提到的基因簇,应该是指基因家族中以串联方式紧密成簇排列的重复基因(gene cluster or tandem duplication)。这种串联扩张的同源基因,因为本身发生了扩张,很可能形成剂量效应,表达量相对低是可以理解的。此外,很多时候,这种扩张的基因簇中也伴随着一些没有功能的假基因,也会出现不表达现象。另外,你观察到的不表达情况,可能与计算表达量的软件有关系,有的软件对于这种极度相似的同源基因簇的计算,只会计算一个,不会均分表达。最后,串联重复基因簇很有可能是在特定组织和特定时间表达功能的,比如我们在苏铁文章中,我们发现种子存储蛋白,它就是一个串联重复的基因簇,这些gene cluster只在受粉后期和受精之后的胚珠中特定表达。
Q:老师,您说的苏铁里面的106个新发生的基因和55个显著扩张的基因都是由于全基因组复制事件产生的吗?全基因组复制事件对于种子植物的演化有什么意义?
A:是全基因组复制时间产生的,与种子植物演化相关。
Q:请问张老师,您讲到了裸子植物的共同祖先发生了一次全基因组的复制事件,而且您的研究也表明,攀枝花苏铁产生了许多和抗逆相关的新基因。但是,裸子植物就像您讲的有1118种,但是蕨类植物有13000多种,而被子植物物种更加丰富。您认为为什么裸子植物有其基因组以及环境适应性上的独特优势,但物种多样性却不如蕨类植物和被子植物呢?
A:裸子植物的种类多少与其繁殖系统与气候有很大的关系, 蕨类植物占据阴湿环境,其配子体阶段能够保障雄性配子的短距离泳动,裸子植物自古生代石炭纪始,在中生代称霸世界,现今多已经绝灭,包括苏铁和银杏等也是如此, 银杏现仅存1种,苏铁尚有360多个, 松柏类现虽种类不多,但却占据了高纬度和高海拔地域,物种灭绝在裸子植物演化过程中发生了很多次。裸子植物均为木本,种子没有心皮包被,从种子到种子的繁殖周期过长,也导致其多样性的降低。多样性和抗性没有直接关系。说苏铁有很多抗逆相关的基因,这个是事实。为什么种子植物没有这些,这正是体现了苏铁的古老,保留了种子植物早期的一些特有特性,但很多因为时间久远,在后来的演化逐渐丢掉了。
杨勇志研究员
报告主题:芡实和金鱼藻基因组揭示被子植物系统演化关系
Q:老师,请问您核基因组是通常我们说的基因组是吧,那质体基因组只是说叶绿体基因组吗?这个叶绿体和线粒体基因组在系统发育中哪个更准确能推断进化关系呢?
A:是的,核基因组通常指我们所说的基因组,质体基因组一般指叶绿体基因组,线粒体有时也称为质体基因组。线粒体和叶绿体主要区别在植物中,被子植物大部分叶绿体和线粒体是母系遗传,裸子植物中叶绿体一般是父系遗传。单亲遗传会受到很多遗传因素的影响,而双亲遗传(核基因组)可能反馈更为真实的演化历程,在不同的层次有不同的解析。
Q:老师,您好。构建进化树时有没有直接用蛋白序列来构建呢?和cds的拓扑结构有什么差别?谢谢老师。
A:本文章在构建时用的CDS进行构树,如果用蛋白进行建树,会有一些区别,但是整体的系统发育关系不会有较大变化。
Q:请问我们看基因流事件是用的什么数据啊?全基因组吗?
A:我们使用了PhylonetWorks软件基于所有的基因树进行基因流的预测,是全基因组的基因树数据集合。
Q:请问杨老师,睡莲目包括许多个科属种,为什么在芡实这个单一物种可以代表睡莲目?还有整个木兰类也包括多个目科和种,为什么单一的鹅掌楸或者胡椒可以代表整个木兰类植物?谢谢老师!!
A:睡莲目是基部类群演化的较为成功的目,里面包含很多种,该研究更为关注大类群间的演化。芡实属于睡莲目,研究睡莲目与其他目的分化,用芡实是可以代表的,但是如果研究睡莲目内部的演化历程,仅用一个物种是无法代表的,但是其代表一个目在大类群上进行比较研究,是没有问题的。木兰类是仅次于单子叶和双子叶,在核心被子植物中,数量很多。该研究只考虑大的类群演化关系,暂不考虑类群内部的演化关系,所以单一的鹅掌楸或者胡椒可以代表整个木兰类植物。
Q:请问杨老师物种间染色体易位等变异会影响共线性鉴定直系同源基因的结果吗?
A:会影响,但是用WGDI可以较为清晰的看到,因为共线性是片段与片段间的比较,所以以block做共线性,异位等只要片段足够大(一个block包含10个基因以上),有共线性信息,就可以鉴定出来。推荐大家使用WGDI,这个软件比较好用。
Q:老师 请问发生了质核冲突的原因是什么?应该以那个结果为主呢?
A:核基因和质体基因是不同的遗传体系,因为一个是双亲遗传,另一个是单亲遗传。在确定物种的系统发育地位时,用核基因组更能反应物种演化历程;质体基因组的缺陷,首先是它很短,遗传变异信息较少,其次质体基因组是单亲遗传,可能受到很多谱系地理的影响,没有办法反应更为复杂的演化过程,但是如果研究谱系地理等,质体基因组是非常有必要的。
Q:ILS您认为是整个被子植物分类差异的原因,但如果是科或者属内部的建树差异,您认为是hybrid还是ILS影响更大一些呢?
A:这个问题很好。ILS一般发生在祖先有个较大的有效种群,内部有很高的多态性,后代并不是基于系统发育关系(亲缘性)固定其中一种祖先多态性,而是说它是一个随机的过程,比如有较多的祖先多态性位点,每个类群都可以随机固定一个,对建树的影响较大。hybrid还是ILS影响更大这个问题,推荐阅读2021年Liming Cai老师在Systematic Biology的一篇研究论文,在本研究中已经评估,在一个目中,hybrid影响较大,ILS影响较小,此外,该研究还评估了建树的准确性,对结果影响也较大,取决于数据集、物种分化(辐射进化/长时间分化),所以具体的数据集、具体物种还要分情况讨论。
文献链接:
//academic.oup.com/sysbio/article/70/3/491/5970466?searchresult=1
Q:老师对系统发育信号之间的冲突有什么看法?怎么解释比较好?
A:系统发育信号之间的冲突有很多种影响因素,首先是物种的选取,如果选的物种较少,极可能出现奇怪的树型,在扩大物种选取以及让每枝的物种数量稍微均衡一些之后,结果会更好。其他的因素如基因流、ILS等,建议用溯祖树的方法,能较好的回避这些因素的差异。此外,基因序列长度对树形的影响也较大,不同长度容载的突变数量不同,对树形的解析度也不同。影响的因素很多,目前能够分析的方法也较多样,可以依次查看。
Q:老师您好!您关注兰科植物的基因组现在的大概情况吗?
A:兰科基因组我没有太关注,这个我推荐您可以咨询刘仲健老师,他们是系统做兰科物种演化的课题组。
Q:现在化石上的证据不断显示被子植物起源可以推至约2亿年前,爆发时间也跟分子证据有很大区别,请问你们如何解释类似的问题呢?
A:在计算时间时,时间尺度较长,达上亿年。要基于化石时间对后续分子钟的估计,取决于化石时间的推测,如果化石能够定位的更古老,那就可以更加细致的分辨出后面分枝的时间。
Q:请问杨老师,你们ks绘图是用的软件?浮岛图
A:我们使用WGDI首先计算了共线性基因的Ks值,随后使用ggridges进行绘图。
Q:杨老师您好,低拷贝基因中其余拷贝是怎么处理的?
A:该研究定义了一个低拷贝基因集,在每个物种中少于10个基因,如果多于10个基因,计算量较大就不用。低拷贝数据集不太容易计算一致性,主要还是以单拷贝为主。
Q:老师,请问如何通过系统发育树来分别杂交种还是祖先种呢?他们在进化树上都在基部扩大选择物种范围是不是相应增加ils?
A:在群体建树时,杂交物种大部分倾向于某一个亲本,会存在较强的异质性。扩大物种范围于对ILS不会有太大影响,在本研究中ILS发生的枝系在核心被子植物中,如木兰类和双子叶的祖先分枝,这些是内部发生ILS最为频繁的枝系,增加物种选取不会影响这个结果。
Q:您说的除了KS来证明WGD这种方式,两两同源基因的研究,这个能做一个简单的介绍吗?
A:推荐看WGDI的文章,该文章将所有的WGD的问题都回答了。实际上,只用Ks会出现误差,因为在做芡实文章分析时,鹅掌楸用的是contig级别的基因组,找到的共线基因数量不多、质量不好,在做Ks校正时,发现它与牛樟并不是共享的加倍事件。后来,在金粟兰文章中用的染色体版本的基因组,获取更多高质量共线性基因后,就将其确定下来是一次共享的加倍。鉴定共享有很多种方法,Ks只是其中一种,通过同源基因Ks可以分析出发生的时间端,以及是否早于分化时间,一般早于分化时间,即是共享的一次加倍;此外,可以通过建树的方法,将共线性基因提取出来,进行建树,查看树形是否支持共享/不共享;另外,可以通过查看点阵图,如果共享,理论上有一条Ks较小,剩余的较大;此外,还可以做微共线图,可以发现基因的排序如果是共享,则大部分一直,如果是独立的,则会有很多的变化。最好是结合多种证据来证明:1.物种发生的多倍化是什么什么类型的,如WGD、WGT或更高乘数的多倍化;2.两两物种间的加倍化历程共享/独立等。
文章链接:
//www.biorxiv.org/content/10.1101/2021.04.29.441969v1.abstract