Nature Biotechnology发表长读长reads基因组组装新算法
发布时间:2022-04-26 11:34 作者:AG代理科技
近日,为了实现长读长reads组装的自动化,加利福尼亚大学Anton Bankevich教授团队研究开发了一种基于Bloom filter(布隆过滤器), sparse de Bruijn graphs 和disjointig 组装的快速算法—— La Jolla Assembler (LJA)算法。它包括三个模块,解决了长读长reads组装的三个挑战: jumboDBG(构造大型de Bruij图),mowerDBG(错误校正) 和multiexdbg(使用整个读取长度来解析重复)。
作者通过近期发表的人类T2T基因组的长读长reads进行自动化组装来展示LJA的效果,结果显示LJA生成了最连续的组装结果,其中包括6条没有任何装配错误的人类基因组的完整染色体,而整个人类基因组组装中仅存在10个装配错误,与hifiasm和HiCanu相比,组装错误的数量减少了5倍。
下一步,研发团队将进行nanoLJA 工具的研发,结合HiFi 和Oxford Nanopore reads 来改进基因组组装的连续性。
JumboDBg pipeline
LJA pipeline
LJA组装与hifiasm和HiCanu的T2T基因组组装比较