格物致知论坛 | 优秀博士沙龙(1)Q&A
关注AG代理基因公众号,后台对话框回复:博士沙龙一,获取回放链接。
Q&A
1. 组装到染色体水平的这些样本和no-gaps这些样本是怎么确定的?根据物种重要性还是变异代表性?
(1)首先,因为用到的是长读和短读测序结合的组装策略,因此我们得到的基因组基本上都是可以达到contig级别的。此外,因为需要参考基因组作为引导,所以我们就选择将它们组装到了染色体级别;具体的挑选来说,是基于之前水稻3K的SNP和水稻的地理分布以及其他的特征开展的,大概是几十个对应的水稻。
(2)关于no-gaps这些样本的确定,主要就是看这些组装结果、包括已经发表的公共数据库里哪些gap数量是比较少的,我们主要是参考了2020年的一篇文章,它发布的基因组质量还是比较高的,基本上都是只有几个或者是几十个gap的基因组,然后,我们也是在它们的基础上进行gap的填补的。
2. 有考虑做图形化泛基因组吗?
这个我们课题组正在做。
3.请问老师,转录组做基因组组装注释,转录组需要测多少数据量?
薛老师:我们这个项目,没有做转录组测序,所有具体的情况需要具体来看。我们主要是基于公共数据库的转录本、蛋白作为证据,并结合从头预测共三个方法去做的注释。
AG代理建议:建议可以用二代转录组数据做辅助注释,也可以再加上全长转录组做辅助注释;一般情况下,1G以内的物种基因组做转录组辅助注释测6-8G就可以,超过2G的基因组可以加到10G,如果再大,可以继续适当增加数据量。
4. 老师,你们有对每个染色体基因组进行单独注释吗?我看网站上没有提供单独的注释信息。
我们没有对每个染色体基因组进行单独注释。因为我们当时考虑到样本量确实比较大,而且我们针对新序列部分做了一些变化,以保证这些基因尽可能的不要被遗漏,那么在此基础上如果我们再去做基因的PAV应该是问题不大的,所以我们当时是采取了一些更加高效和快捷的手段,而没有对每一个染色体都去做单独的注释。
5. 老师您好,想问一下,gap-free基因组的gaps是怎么填补的?
主要是基于TGS-GapCloser去填补的,它的基本思路就是在gap的两端有对应的序列,我们在比对的时候,有对应的identity和长度的最低要求,基于这两个内容,可以得到一个QS得分;但是我也发现,阈值设置过低的话,结果会很多、很杂乱,所以我在做的时候,将identity提高到了90%;长度方面,对于correct reads我设置为了两端都要300bp以上,对于打磨的contig而言,两端设置成1000bp以上,然后通过这样的方式去补gap;最后,每个样本都能提供得到gap的长度。但是,我们也发现填补进去的gap序列差别比较大,所以我们最后是对多个样本取了最短的序列,以大致估算完整基因组的大小。
6. 请问老师,map到参考基因组,根据基因修饰文件确定匹配的基因,匹配出来的测序片段特别长,和真正的基因长度差别很大,那请问老师可以根据什么标准或者方法可以筛选一下呢?
我们map的时候没有特别地说去匹配到哪里,只是正常的比对。
7. 请问PAV分析对每个群体的个体数量有什么要求吗?
这个分两个方面,一方面是鉴定,相当于是判定某个基因的有或没有,这个的话一般每个样本都可以去做,但是如果测序深度特别低,有些基因上面可能没有reads的覆盖,就会影响PAV后面的分析;另一方面,如果获得了对应的每个基因的PAV情况去合并到群体的话,那就需要关注整个群体你关心的核心基因、soft core或者distribute了;另外,如果样本比较少的话,可以对PAV的基因的分类要求稍微宽松一点,也就是说可以根据情况可以适当调整。