格物致知|青年大家系列第一讲 Q&A
关注AG代理基因公众号,后台对话框回复关键词:棉花,获取回放链接。
Q&A
讲师:王茂军教授
单位:华中农业大学
报告题目:棉花泛基因组和转录调控演化研究进展
问题一:在功能基因研究里面,我看到了一些基因,如JAZ1,PDF1,Ca离子信号 ,ROS活性氧,以及类黄酮代谢等这些也都是和棉花抗黄萎病功能相关的基因,在这里它们又参与了棉花纤维发育的调控。那么请问老师,纤维发育和棉花抗黄萎病之间存在一定的关系嘛?
一个基因有多个功能,这在植物、动物或者其他生物里面都是很正常的,也就是说一个基因在不同性状里面可能都会发挥作用;尽管这个基因可能是在抗黄萎病中鉴定的,但是我们通过数据的分析,只要这个基因在不同纤维材料里面有差异,可能也会是一个很重要的候选基因。但是这个基因是不是决定性的基因,这个还不清楚,还需要进一步的研究,目前只能说具有相关性。
问题二:eQTL分析中,基因型填充了吗?这个填充准确性有评估吗?
这个我们是填充了的,我们做群体的研究时,首先216份材料我们测了20X,鉴定到了很多位点,基本上在不同棉花当中大部分都能鉴定出来,但是在合并变异文件VCF时,还是会发现有些位点不是能够直接鉴定出来的,所以还是需要填充,填充之后再去做eQTL或者GWAS研究。
问题三:棉花一共八大类型,而现在的栽培种海岛棉和陆地棉都是A和D组(亚洲棉和雷蒙德式棉杂交)形成的四倍体,现在也被普遍推广。老师做完棉花基因组后,对于其他类型的棉花进行杂交得到的四倍体,有什么看法?(比如比克式棉和亚洲棉杂交能否得到更好的栽培种,或者其他两种或三种二倍体棉花杂交得到的新品种能否得到更好的品种)
这是个非常好的问题,也是我们一直很想做的事情。实际上,棉花的杂交和有些物种比如说油菜还不一样,棉花的杂交相对来说更困难。比如我们这里是二倍体AA和DD杂交,但是如果二倍体AA和EE/CC/GG去杂交,一般情况下都会高度不育,很难得到后代。当然,这也是过去做杂交看到的一个现象,但是现在可能也有一些新的技术可以提高我们去得到新的四倍体的可能性。这也是我们在种子制备演化研究里面很重要的一个方向,今后肯定会付出努力的,现在我想说的是至少杂交在过去是很困难的。
问题四:请问ont组装的泛基因组单位点的准确性怎么保证?
这里我要说明一点,我们这里面的泛基因组是把10个棉花各自组装了基因组之后,直接做基因组的比较,找到不同基因组之间差异的一些区段,然后通过这样的方法去构建了泛基因组。这与以前比如说通过二代去做map to pan这种方式还不太一样;我们相当于是直接把基因组序列进行了比较去构建的泛基因组这个集合。
问题五:老师,棉属不同种species的染色体个数和倍性有差异吗?
我们现在看到的棉属的50多个种,其中有7个种是4倍体、都是52条染色体;二倍体都是26条染色体。染色体数量上只有二倍体和四倍体的差异,同倍性内不存在差异。
问题六:王老师好,问下基因流的研究中,是怎么确定基因流方向和基因流的比例的?
这个问题问的很好,这位朋友可能做演化生物学的研究比较多。我们研究里面的A、B、E、F都是分布于非洲或亚洲这一带,然后以分布于美洲的D基因组作为对照,通过我们现在广泛用的模型去看有没有基因流。比如有些基因可能在A里面有、可能在B里面也能找到,如果在D里面找不到,我们就认为A和B基因组可能发生了基因流动这种现象。当然,这只是我们现在的一个推测,具体是不是和一些性状相关,还不是很清楚。
问题七:刚刚您提到亚基因组同源基因处于差异性的互作网络,您有没有继续对互作网络的更具体的差异进行研究呢?
这是个很好的问题,我猜测这可能是做四倍体或者多倍体的朋友。多倍体尤其是异源多倍体中不同亚基因组的很多基因都会呈现出表达的差异,这种差异一方面有可能是在形成四倍体之前也就是说不同的二倍体时就已经有差异了,所以在四倍体里面还是会“继承”这种差异,相当于是很早期的一些差异;而有的差异可能在二倍体中不存在,是形成四倍体之后、两个亚基因组发生了变化才造成了差异。更进一步去研究两个亚基因组的互作差异这部分我们现在正在开展,因为我们发现在多倍体尤其是很复杂的多倍体里面,基因组高度重复,用一些以前二代测序的数据去做亚基因组的互作其实很困难,所以我们也在开发一些新技术,而且已经有一些初步的结果了,通过这样的结果去阐述亚基因组是怎样形成高级结构以及互相之间是怎样互作的。
问题八:不同物种基因表达量的比较需要做标准化校正吗?是比对到同一个基因组?还是分别比对到不同基因组后直接用基因表达量进行后续比较?
这个问题问的非常好。实际上我们这个工作里面主要用的是二倍体,没有做二倍体和四倍体的比较,如果说要对二倍体和四倍体这种倍性有差异的材料进行基因表达量比较的时候,就更加要注意这个问题。因为在我们的前期研究里面,我们发现直接把一个二倍体和一个四倍体同组织的RNA-seq进行比较时,往往发现四倍体的表达量低一些,尽管我们可能认为四倍体测到的数据量加倍了,但是由于亚基因组之间很多序列可能比较类似、会有错误比对的方式,所以看上去某些基因可能会有丢失的可能性,所以多倍体很多研究会发现表达量较二倍体偏低一些。但其实我们这个研究里面主要是针对二倍体,所以这种可能性很低。首先我们不同二倍体测到的数据量都差不多,基因的数量很相似、都是4万个左右,然后用不同的基因组做了参考,比对各自的RNA-seq的数据,之后直接把对比的结果做了进一步的差异基因的研究。然后关于这个研究里面群体的数据就更简单了,因为都是亚洲棉,我们是把不同个体的亚洲棉数据比对到一个参考基因组,然后去看表达差异。
问题九:TAD边界进行分类时是基于染色质活性状态、基因数量和基因表达量,请问可以具体说说是怎么分的吗?
这个问题问的是技术细节哈,问的很好。
我们在TAD鉴定完成之后,我们基于ATAC-seq和RNA-seq数据,与基因的数量结合在一起,然后去做这个分析。这里面我们主要是基于聚类去做的:在同样的水平下,有的TAD边界聚类的结果可能是既有很高的染色质活性、又有很多基因、同时这些基因的表达量还很高,聚类时就把它们聚为了一类,另外两类也是类似。但是具体的一些参数没有涉及到很多人为划分的参数,这是一种解决方式,仅供参考。
问题十:可能跟老师您讲的没有什么太大的联系,只是个人好奇的问题,因为棉花转基因比较难以获取,所以如果研究反向遗传学的基因功能的话,如果没有转基因材料,那么VIGS材料可以用来做转录组嘛?或者说棉花VIGS材料在转录组中的认可程度怎么样?(对照组是无处理,实验组是VIGS处理之后的材料)是不是只要VIGS之后检测一下干涉效率,如果干涉效率还挺好,是不是VIGS材料就能做转录组的材料了?如果有转基因材料的话是不是更好?
在早期我们做苗期的性状比如说抗旱、抗冷或者抗病时做VIGS比较多,因为这样可以快速地去检测这个基因是不是有作用,但是如果我们做纤维里的基因,那就需要发育到生殖生长以后了,所以说纤维基因去做VIGS很难,虽然有报道说有些VIGS载体可以在全生育期发挥作用,但是我们对于这个问题实际上是比较慎重的。而且现在基因编辑已经非常高效了,这也是我们团队的一个优势,所以我们现在做一些性状相关的基因时更多的是用遗传材料,用的是CRISPR材料去做,现在已经很少用VIGS了。另外,如果是严格的对照,那肯定是可以说明问题的。最后,VIGS之后我们肯定要去检测干涉效率的、会做RNA-seq。