“格物致知”论坛第一期FAQ
“格物致知”论坛第一期回放链接:
//applggkj4x01743.h5.xiaoeknow.com/v2/course/alive/l_624fcdbfe4b09dda1257f6a4?app_id=applggkj4x01743&alive_mode=0&pro_id=&type=2
Q&A
王堃副教授
报告主题:Cell:肺鱼基因组解析脊椎动物早期演化的遗传学基础
Q:近年来多个大型基因组陆续被公布,而大型植物基因组的重复序列结构更为复杂,在基因组注释方面,对于整个注释方法做了哪些优化和改变?
A:优化主要集中在流程,一般用EVM、maker等将基因注释的证据进行整合,对证据筛选进行了优化,第一,对于转录本注释,只选择唯一对应的转录本;其次,同源注释选择比对最好的coverage,写流程对这些最优证据进行整合。主要思路是进行较好的质量控制,选择最优的证据整合得到最优的结果。
Q:王老师好,报告非常精彩。在宏进化那么大的尺度,从个别基因进化的角度去解析表型的宏进化,会不会以偏概全?
A:会。因为表型的改变不是简单的一两个基因就可以解决的。目前的研究是管中窥豹,只能让我们从一定的视角进行观察和推测,对部分的表型做关联和解答。
Q:您好,我想问一下趋同演化不是发生在起源关系稍微远的物种中吗?所以剑鱼和旗鱼那个故事是趋同演化还是平行演化
A:剑鱼、旗鱼、金枪鱼的分化时间较远,本质上没有较大的差异。
Q:请问王老师,趋同进化分析方法的选择对结果有一定影响,目前方法也比较多,会不会有假阳性的问题,您推荐哪种方法?
A:目前对于趋同进化分析,会选择不同的尺度去做,其中氨基酸位点是很容易做的,但是容易出现假阳性。分析参考了NSR红树林的文章的分析方法,进行严格过滤,得到位点水平的分析结果。对于位点水平得到的结果一定要谨慎处理,要考虑氨基酸的突变情况,包括氨基酸的性质是否发生改变,以及保守性如何,进行综合筛选。
Q:间断平衡理论有没有考虑几次生物大灭绝事件?
A:考虑了,间断平衡是用化石进行研究。间断平衡理论是演化论的一个补充。
Q:王老师好,您提到的趋同驯化基因,请问是指序列趋同还是功能趋同?具体是怎样挑选的?谢谢!
A:主要是找序列上趋同,标准较为严格,序列一定要非常保守,在保守区域发生改变说明会有功能上的改变,最后要进行了酶活实验进行验证。
Q:老师,我想请教一下,对于分化相对久远的同类群不同目级别水平的物种进行基因组结构进化的意义有多大呢?
A:基因组结构有时对一些基因的表达是有作用的,但很多时候是中性作用(中性理论)。做基因组分析就是从中找到非中性作用的改变。
Q:鱼鳃,鱼鳔和肺的起源进化中功能和结构进化老师有相关研究没有呢
A:鱼鳃和后两个组织是完全不同的进化历程。鱼鳔和肺是同源结构,从食道中起源。而鱼鳃最早是用于滤食,有类似鳃裂的结构,后来进化到脊椎动物,鳃就逐渐退化为空气呼吸能力,到脊椎动物登陆后,鳃弓变成耳朵、下巴或脸的一部分。
Q:王老师您好,我想问一下,趋同进化我们用codeml分枝位点模型鉴定到了很多基因,您是怎样严格筛选最后得到了4个基因?
A:在筛选时会筛选到很多基因,但是山选中有两个原则:1、要保守;2、要引起氨基酸性质的改变。
Q:请问一下王老师,想问一下基因数目小于澳洲肺鱼,非洲肺鱼的BUSCO反而更高呢
A:这是正常现象,注释的数量越多,越不知道哪些是正常的基因。基因注释过程会得到很多基因,如何将真的基因抓出来,这是注释过程比较考验技术的一部分。
Q:我想请教您一下,我们想解析一些物种特有的表型,同科其他物种没有的,该如何从比较基因组方面下手?或者说如何通过和临近物种比较得到相关的信息。
A:特有表型若是可遗传的表型,基因组层面,可以对基因进行全面分析(正选择、扩张收缩基因家族);另一方面,对目标基因周围的序列进行查看和验证。从正向遗传学和反向遗传学两个方向进行深入研究。
Q:老师演化过程中有考虑表观遗传的效应吗
A:本研究未考虑表观遗传效应,因为表观遗传在比较近期会发挥比较大的作用,较远时期的进化研究暂时未涉及到这部分的工作。
Q:王老师好,为什么只是分析了逆转录酶的domain,而不分析转座子呢?
A:分析了转座子,文章中有转座子分析的结果,不同物种的逆转录转座子的类型不同,可能不同物种爆发不同类型的逆转录转座子。
Q:请问一下王老师,您是如何从海量基因里面如何与肺鱼性状进行关联的呢?另外,非洲肺鱼里面的转座子主要是LTR类型转座子吗,还是和植物不一样
A:首先进行严格的筛选,确定找到的遗传改变比较可靠,避免假阳性,其次对一些功能进行推测和验证。转座子类型在不同物种中差别很大。
Q:请问一下王老师 您在用转录组数据进行注释的时候,每个isoform只保留最长的一条吗?另外在转录组数据组装的时候,如果全部保留的话会导致注释到的基因较多的情况吗?
A:是的,注释时只保留最长的一条,每条最终要比对到基因组上,只保留一个比对的位置,确保不会出现冗余。
Q:是否有考虑不同的isoform对表型的影响呢?
A:看研究的尺度,如果是比较近的物种,考虑isoform比较有意义,如果比较进化地位较远的物种,isoform意义不大。在做基因注释时,isoform用于定位,定位到更可能是基因的区域,定位到区域后再进行精细注释。选用一个isoform是为了确保不会出现注释冗余。
Q:转录组不同的组装方法(trinity或hisat2+stringtie)对结构注释的影响是什么样的?
A:这个属于不同的思路,我也不清楚具体有怎样的差异,不过histat2+stringtie应该可以更容易进行可变剪切的注释。
Q:请问一下王老师,可变剪切可能是表型改变的原因吗?
A:是很有可能的。但是在做可变剪切的时候需要特别小心,这里很容易因为测序或者样品问题出现假阳性,所找到的新可变剪切形式未必是物种特异的。
Q:感谢老师的精彩报告。请问老师,与某个表型相关的基因通路中某个家族发生了单个基因的收缩,能说明这个基因在该表型中具有关键作用吗?谢谢
A:这个只能说有可能,得再看看这个基因的拷贝数变化背后的具体机制。收缩只是数字上的一个反应,最好能深入到具体的遗传变异来进行研究。比如某个具体拷贝发生了丢失(在别的物种中都非常保守的存在),这种可能更有意义。
Q:物种之间协同进化也算是宏进化吗?
A:宏进化主要指时间久,表型变化大。有一些协同进化是属于宏进化的,有一些近期的可能就不一定了。
Q:想请教一下老师,基因组组装和注释的各项BUSCO评估值都达到95%以上的情况下,得到的基因数量的值能判定确定是可靠的吗?如果基因数量值还是偏低的话可能是哪里的问题呢?
A:如果基因注释BUSCO未经过特殊的过滤,达到95%以上,应该是比较可靠的。如果基因数值偏低,有可能是其他物种注释的偏多,具体是偏高还是偏低,可以与物种进行同源基因分析,因为BUSCO包含的基因也并不是非常完整。可以查看与其他物种的RBH结果,如果数量正常,说明注释没问题。
焦远年研究员
报告主题:Nature Plants:马兜铃基因组和被子植物进化的研究
Q:马兜铃测序工作较早,目前随着测序技术的发展,推出了T2T基因组,并且ONT超长序列能够达到N50>100kb,甚至N 50>150kb,您认为T2T基因组对于解决小的基因组,对于进化分析这块有何帮助?着丝粒结构、端粒结构是否对进化很重要?
A:这是肯定的,将物种基因组做到T2T水平,中间没有gap,将着丝粒、端粒完整组装,意义是非常大的,对于进化分析而言是更重要的。一方面对于结构分析有很大帮助,另外一方面,对于基因组中一些non-coding区域、gap区域、端粒、着丝粒区域进行完整组装,能够包含一些此前未被组装的基因调控位点和调控元件。
同时,研究团队目前正在组装马兜铃基因组2.0版本,希望能够达到T2T水平,目前已发表的马兜铃基因组多条染色体的端粒区域已经解决,但是在着丝粒区域组装较难,很多未被组装出来的区域很可能就是着丝粒区域以及高度重复区域。只有最长的reads才能跨越这些区域。
未来几年肯定每个物种都是要做到T2T基因组的水平,不仅针对进化研究而言,包括对于做功能研究的老师,少的基因在参考基因组中未被完整组装,那么就很难拿到一个准确的功能研究结果。
Q:焦老师好!很精彩的报告,感谢分享!请问做染色体融合分析用的共线性是基因共线还是核苷酸共线?
A:本研究采用的protein coding基因共线性,跨物种、跨尺度很大的情况,如果直接拿序列进行比对,结果会会很乱,植物和动物不同,动物在non-coding区域保守性会好很多。但是对于植物而言,即使是近期分化的物种之间,差异也会很大,同时因为基因组中non-coding比例很大,coding区域的比例很小,所以只用核苷酸共线进行分析,会存在难度。
Q:请问在比较马兜铃与其他物种的共线性比较的分析中,是如何通过点图的结果判断在基因组的哪一部分发生了融合呢?谢谢!
A:一方面,对点图进行详细解析需要有丰富的阅图经验;另一方面,不止需要进行两个物种间的比较,而要进行一系列基因组的比较,要将每个物种之间进行比较,拿到类群内共同支持的结构变异结果,理论上来说会得到更为准确的结果。
Q:我想请教您一下。我们现在做木兰类的基因组,用单拷贝直系同源基因得到的进化树和您这个结果不一致,这个结果是不是也不能说就是错的?投稿会不会被审稿人质疑呢?谢谢您。
A:结果不一定是错,分析部分会存在差异,导致结果不同;此外,单拷贝基因家族也不一定一致,一旦单拷贝基因家族存在差异,也会导致结果不同,这与物种的选择以及分析方法的选择都会有一定的关系。另外,也有可能存在杂交事件,导致结果不一致,对于结果不一致的结果需要谨慎处理。
Q:请问真核生物新物种做基因预测,怎么得到训练集?
A:基因预测最好是选择相对近缘物种,质量较高的注释结果,做同源基因预测会更好一些。
Q:焦老师好,我想请教一下:6号和7号染色体的融合,对于系统关系有重要的作用,那对于流苏马兜铃有什么生物学意义吗?6和7号染色体上的基因是不是有什么特异性?
A:本研究针对这部分没有进行深入的探讨,这个肯定会有影响,但是具体是什么影响,以及这个影响以及经历了1-2MYA,目前能否再看到这种影响,不太确定。
Q:老师好,非常漂亮的工作。想请问您是否有关注真双子叶基部类群的进化位置及与其性状特征之间的关系,我看到有一些真双子叶植物基部类群的物种的位置也不是很确定,有的是聚在了真双子叶里面,例如莲科和山龙眼科,如果想确定这些物种的位置,除了基于序列和染色体结构,是否还有其他的方法可用?
A:在真双子叶类群中,通过基因组结构是可以来看的,如果能够看到多个类似的结构变异时,能够给我们一个较强的证据,因为结构变异相对稳定,但是又只是一个事件,即使看到了结构变异,在下结论时也要进行权衡。对于保守和不保守的物种基因组可能会提供不同的信息。
Q:想请教一下老师,基因组组装和注释的各项BUSCO评估值都达到95%以上的情况下,得到的基因数量的值能判定确定是可靠的吗?如果基因数量值还是偏低的话可能是哪里的问题呢?
A:建议把转录组denovo组装出来的转录本和注释出来的基因集做比较,如果很多转录本没在基因集里,那还得重新调整、优化注释流程。
Q:木兰和西瓜的基因组比较做过吗?
A:没做过。
Q:焦老师好,请问maker做基因结构注释的时候,同源蛋白序列的物种怎么选择?如果同科物种蛋白没有验证,而同目蛋白序列有验证,那么,是选择同科植物还是选择同目物种的蛋白做蛋白证据呢?谢谢!
A:2个原则:1.尽量选亲缘关系较近的物种2.选注释质量较好的基因组。
Q:感谢老师的精彩报告。请问老师,与某个表型相关的基因通路中某个家族发生了单个基因的收缩,能说明这个基因在该表型中具有关键作用吗?谢谢
A:只能说这是一个可能性,具体是中性作用还是有利/有害,还是要进行功能验证才能准确的来说明其有关键作用。
Q:想请教您一下 关于染色体融合 需要考虑祖先染色体的长度吗
A:对于长度,本研究暂未考虑。因为染色体的大小与一些近期的转座子插入、重复序列的扩增相关,这个需要具体问题具体讨论。
Q:想请教一下Ks 矫正在WGD鉴定当中的重要性
A:Ks矫正是非常重要的,必须要矫正,因为每个物种的进化速率不同,如果仅根据Ks的peak值确定WGD发生位置,结果不准确。
Q:焦老师好,请问WOX类基因、CUC类基因在流苏马兜铃中有没有拷贝数目、基因结构等的变化?进而影响其花冠的合生。马兜铃花冠的合生是很有意思的问题。
A:拷贝数没有变化,并且结构很保守,认为可能与下游调控相关。
Q:焦老师马兜铃酸的合成途径是怎么确定的,根据KEGG里面的pathway吗?
A:是的,结合了前期一些研究的成果以及KEGG数据库相关信息。
Q:您这里做进化树提到的支持率是指 总数100个基因家族,然后有60个基因家族支持一种结果,40个支持另一个结果,您看是这个意思吗?
A:不是,是单个基因家族的支持率,在进化树中的bootstrap值。
Q:,我想请问老师,对于木兰类植物鉴定到的tps关键基因,后续如果想做实验验证的话,该如何开展这个实验呢?
A:一方面可以通过转录水平和气味做关联分析,进一步确定候选基因;另一方面如果想开展遗传功能分析的话,现在木兰类还没有物种建立了遗传转化体系,所以需要借助其他物种来验证。
Q:请问ONT组装方法产生的假基因问题对后续注释质量是否会造成很大影响?可变剪切和UTR注释对基因数量和质量的提高是否有帮助呢?手动注释添加基因是否可靠,标准和依据是什么?
A:不太明白这里说的ONT组装方法产生假基因的具体意思,但如果基因组组装质量不好的话,肯定会对基因注释带来困难。如果有转录组数据发现可变剪切和UTR情况的话,一定程度可以提高注释质量。手动注释的可靠性还要具体看情况,标准和依据可以参考下基因组注释的相关文章。
Q:不经历全基因组倍增的植物,对植物适应性是否有影响?
A:全基因组加倍和适应性只是有关系,物种的适应性进化并不一定只通过WGD来实现,还有很多其他基因组进化方式可以实现,所以没有WGD,不一定影响物种适应性。