格物致知 | 青年科学论坛(一)Q&A
关注AG代理基因公众号,后台对话框回复关键词:青年科学论坛1,获取回放链接。
Q&A
讲师:陈露博士
单位:中国科学院遗传与发育生物学研究所
发表期刊:Nature Genetics
报告题目:Genome sequencing reveals evidence of adaptive variation in the genus Zea
1.可以讲下MSC 是怎么揭示分化时间的吗?谢谢。
我们并不是基于SNP构建的进化树,具体的细节你可以去看文章的方法部分。简要来讲,我们首先是将这些重测序数据比对到参考基因组上,比对之后,在BAM文件里去找一致序列,然后基于B73的注释信息,随机抽取1000或者2000个基因,对其进行进化树的构建,基于BBP这个软件在基因层面上对其进行进化时间和系统发育上的推断,这个软件就相当于模拟我们最常用的在基因组的组装project里面,如何利用基因的信息去推断整个的进化关系和分化时间,但这里面的分化时间其实也是基于不同基因序列之间的差异去算mutation到底发生了多少次,然后基于mutation这样的一个模型,玉米mutation传代的话大概是10-8,这种差异和每个传代过程中mutation的突变速率还有差异去看整个分化的时间。
2. 你们有通过趋同进化的分析获得除了已经从拟南芥和水稻中已揭示的基因的同源基因以外的玉米基因位点吗?
对,我们这个趋同进化基因,从玉米和水稻里面的基因位点,就是我们敲的一些基因呀;除了可以看到已经发表的一些同源基因外,当然也会看到一些新的基因,这些新基因的位点已经放到我们的附表里面,肯定是有非玉米和水稻同源基因的,但是我们在敲的时候,考虑到更有把握的原因,可能会选择已知通路中一些在玉米和水稻里面对功能已经有比较好的验证的一些基因。另外,趋同进化基因KRN2的case,其实也是在玉米和水稻里未知功能的一些位点。
3. P11中,造成大刍草和玉蜀黍着丝粒如此巨大差异的原因可能有哪些?着丝粒上的差异具体指的是区域大小还是多样性方面?差异着丝粒区域是否存在着一些关键的优良基因?
着丝粒巨大的一个差异的话我觉得主要是着丝粒相关的一些转座子的位置以及含量吧,但是因为我们主要是一些二代的数据,所以没有怎么去做,而且就玉米来说,它的基因组还没有怎么被研究清楚;但是这里面肯定是有一些关于着丝粒相关的特有的转座子和repeat的差异。目前造成二者着丝粒差异的原因方面,目前来看可能数据还没有较好的支撑、而且着丝粒的变异和进化也是一个很大的课题、而且我自己也没有去整个关于着丝粒方向的研究。关于着丝粒区是否存在一些优良的基因,这个我也不是特别清楚,您可以私下去search一下。我这里展示的只是之前已经发表的基于杂交的荧光显示的结果,主要还是只能看到着丝粒在位置上的分布差异;涉及到着丝粒的研究的话,我觉得还是需要去把基因组测出来,然后去找对应的CENH3的一些抗体,然后拉了之后继续去看着丝粒。
4. 请问玉米和水稻开花调控基因在进化如何趋同选择,能使水稻和玉米适应不同的纬度和环境而开花成熟?谢谢。
玉米和水稻开花调控基因我们目前没有在做,玉米和水稻的话,我们这里主要是关注了一些产量方面的基因。关于玉米本身的话,玉米开花相关的方面,我们主要是做了高原大刍草和温带玉米,没有去做玉米和水稻开花基因的趋同选择。这也是一个非常好的问题,你可以去看下我们的数据里面,有没有关于开花基因的一些趋同选择,然后去test一下你的问题。
5. 请问陈老师,genus Zea可以构建pan-genome吗?基因组大小和染色体数目差异会很大吗?
我们二代数据构建Pan-genome的文章,实验室原来已经发了一篇,是发表在8月份的Genome Biology上,您可以具体去看一下。基因组大小的话,整个Zea是有比较大的差异的,而且这里面包括了一个四倍化的物种perennis,所以它的基因组大小会多一倍。总的来说,基因组大小具有很大的差异,染色体数目方面除了四倍体perennis之外,其余的都是一致的、10条染色体。
6. 能说一下刚刚提到的SMC在分化历史方面研究效果不好的原因吗?
我们是用现代玉米做的reference,但是这样的话,对于大刍草来说就会有很多共有的SNP位点找不到,导致我们用SMC去做的时候会丢失很多信息;我们很明显地知道玉米是有一个驯化瓶颈的,但是我们在做SMC的时候完全没有看到这个驯化瓶颈,我猜可能就是由于SNP没有imputation导致的,但是具体是什么原因导致效果不好我们还没有进行深入的研究。只是我们在看到这个现象之后发现与我们预期不符,所以才pass掉了这个软件。
7、构建大刍草的系统发育树时,采用的是SNP数据构建,请问在用这些大量的变异数据建树时,相比于单拷贝同源基因集或者SSR来建树,有什么困难和好处?
基于SNP构树的话,其实只能看到分化到底在哪里,因为基于SNP构树的话,基因区和基因间区、突变速率可能是不一样的,但具体是什么样的,这些信息其实不是很多,但是我们基于基因去构树的话,可以通过基因的一些突变转化的模型更好地去推断它的分化时间;但是基于SNP构树的话,我不是很清楚是否相关的算法来实现此目标。
8、请问xpcr 1.0 + W统计的结果和xpclr- python滑窗计算有区别吗?哪种情况适合您的这个方法?
我不建议大家用xpclr- python,因为它没有很好地去对群体进行控制,我们去看xpclr- pytho这个版本的时候,发现它Peak都比较散,没有很明显的Peak,也找不到一些已知的信号。我们加W的话,主要是先算了xpcr 1.0,然后基于window size的方法对我们这些SNP位点进行了合并。
9、使用聚类分析对数据进行降维,具体是基于什么标准选择了9个具有代表性的土壤性状?聚类刚好得到9类吗?
我们除了基于聚类分析,其实也基于了KNN,K中心等一些算法去比较,最终选择了这种最适用于我们、分类效果更好的聚类算法,具体细节也可以看我们文章的方法部分。大概就是用了一个R包、用了不同的模型,计算了从2-30个不同的cluster的情况下,哪个模型更优。
10、 驯化稻和野生稻涉及到两个不同测序深度18X和1X,这个和样本的数量、成本有关吗?
我们这个分析里,用测序深度更深的进行分析,这样可以获得更多的标记信息。关于1x的数据,是为了看看我们收集到的数据代表性够不够。由于我们本身是做玉米的,对水稻的起源,还有多样性的了解不是很多。所以我们在收集现有已发表的高深度测序水稻的数据时(18x),为了保证我们收集到的数据确实可以代表整个稻属的遗传变异,我们就下载了黄学辉老师Nature上的数据(1x),一个公认的覆盖了稻属遗传变异数据,看看我们的高深度测序数据中所用的材料是否是具代表性的,并辅助我们进行稻属的进一步分群分析。
11、 陈老师,请问土壤和气候数据是在哪里获得的?
我们是从一个数据库里面获得的,具体老师可以参考这篇文章(Wei et al.2014.J Adv MODEL Earth Syst.)
12、 陈老师请问群体选择部分怎么确定的候选基因?
我们是先cut了5%,然后在这个基因上面通过趋同性状取了overlap,之后结合多样的通路和表达模式进行候选基因。
13、 重测序是用的什么样本?玉米是异花授粉,如何保证后代基因型和母本一致?
现代玉米用的是自交系,是纯和的。野生大刍草用的是野外自然存在的样本,不知道具体亲本。我们的研究没有针对父母本导致的如等位基因特异表达等问题进行研究。
14、 请问趋同性进化分析的群体大小有要求吗?最少多少份材料?
这里取决于你选择的材料是否可以很好的代表你们整个属的自然变异情况,具体群体大小,主要是会影响选择的结果,但是一般来说,如果可以很好的代表群体的多样性,peak都还是在的。我们这里的分析只对材料数目最多的几个群进行了XPCLR分析,对于只有10-20份的其他大刍草,我们也怀疑没办法代表整个群体的一个变异情况,所以没有进行XPCLR相关分析。我之前,只在现代玉米中,测试了100份和200份之间差异不大。具体你可以抽样,看看鉴定到的peak的稳定性。