NC文献解读 | 应用长读+短读测序技术构建新加坡人群高质量的肠道微生物Ref-宏基因组图谱
人类肠道宏基因组代表了一个具有强烈科学意义的领域,因为它们与各种癌症,代谢,免疫和神经系统疾病疾病有关。现有研究表明,在与各种疾病的宏基因组关联方面可能存在关键的人群特异性差异。本研究利用混合组装(使用短读和长读)和Hi-C技术,深入表征了来自新加坡三个种族的109个肠道微生物组,全面重建了4497个中高质量宏基因组组装基因组(MAGs),显著提高了现有数据库的组装质量,帮助鉴定了70种以前未表征的肠道微生物物种和东南亚人群中的3400多种菌株,并发现了数千种作为生物勘探资源的新型BGC。揭示了东南亚人群中显著的非特征性肠道微生物多样性,并突出了混合宏基因组参考集在生物勘探和疾病研究中的效用。
文章标题:以基因组为中心的短读和长读宏基因组分析揭示了东南亚人中未表征的微生物组多样性
发表期刊:Nature Communications(IF=17.694)
发表时间:2022.10.13
研究策略
1. 受试者招募和样本采集
109名年龄在48至76岁之间的受试者,其中65名男性和44名女性,收集粪便样本。
2. DNA提取和文库制备、测序
l Illumina HiSeq4K平台(平均深度为9.4Gb)
l Nanopore FLO-MIN106D或MIN106平台(N50 = 8.6kbp,平均深度为4.7Gb)
l Hi-C文库测序(平均深度为24.5 Gb)
3. 生物信息学分析
l 宏基因组组装和分析、丰度分析、SPMP数据库与UHGG数据库的比较
l MAG的物种注释、分类和生物合成基因簇鉴定
主要研究结果
1. 生成高质量的肠道微生物参考集— SPMP Datasets
比较了用于构建MAG参考集的常用短读策略和混合组装策略。使用混合策略,使每个样本产生的基因组数量增加61%(图1a),一些样本产生了80个基因组以上。总体而言,109个样品的混合组装获得了4497个MAG,而仅短读数只获得了2789个MAG,其中几个丰富的肠道细菌属在混合组装中具有增强的代表性(图1b)。将长读取数据可以显著提高组装的连续性,混合组装的平均N50为339kbp,而仅短读数的N50为12 kbp。SPMP基因组为大多数GTDB物种提供了显著改善的参考。总体而言,SPMP基因组为110个GTDB物种提供了高质量的参考资料,其中46个有分离株,突出了“ platinum”宏基因组学方法在扩充现有参考基因组数据库方面的价值(图1g)。
图1. 高质量微生物组参考集的组装策略
为了评估MAG的质量是否可以进一步提高,Hi-C数据用于协助连续分箱。Hi-C辅助组装略微增加了获得的高质量MAG的比例,使接近完整的基因组的比例增加了一倍,具有相似的平均组装连续性(图2)。
图2. 用Hi-C数据比较MAGs的连续性和质量
2. 亚洲肠道微生物群拥有大量无特征的肠道微生物遗传多样性
稀释性曲线分析表明,在只有100个受试者的情况下,预计新加坡人口中90%的(基因组水平上)肠道微生物物种多样性在SPMP数据库中有体现(图3a)。然后,将SPMP MAGs聚合为物种级别的集群,用公开的参考基因组集合对其进行注释,以确定70个之前没有基因组的假定的新物种(图3b)。但这些假定的新物种只占已获得的物种级别的集群的10%,并且是现有数据库中仅有MAGs而没有独立基因组的363个簇的补充。在菌株水平,与UHGG数据库(种级公共肠道微生物参考数据库)中的20万个基因组相比,SPMP基因组明显不同,在3891个菌株中有3413个新菌株。在SPMP中最丰富的20种肠道细菌中,只有不到20%的菌株也被UHGG所代表,只有肠道共生的Bacteroides uniformis的40%的菌株被来自其他种群的基因组所代表(图3c)。
图3. SPMP基因组中新物种、菌株的表征
基于比较和深度学习的方法,用高严格过滤器注释生物合成基因簇(BGC)。共识别了被归为16,055个基因簇家族(GCFs)的27,084个BGC。超过90%的GCF在公开的标准数据库(antiSMASH和MIBiG)中与之前已知的BGC没有表现出相似性,在广泛的肠道微生物参考基因组集合中也没有发现注释,这突出了在新种群中使用互补算法进行生物探测的价值。
许多新的GCFs似乎编码多种生物活性化合物,如核糖体翻译和翻译后修饰肽(RiPPs)、多酮和非核糖体肽(NRPs)(图4d),其中一些可能具有抗菌功能。特别的是,一组未在公开数据库中出现的GCF被预测在一种Blautia物种中合成细菌素,具有3个不同的基因配置和编码肽修饰酶的基因(图4e)。含有和不含有新型GCFs的样品中的微生物群落结构呈现了不同的网络,GCF382/271/37的存在与Blautia物种和多个Faecalibacterium物种之间存在强负相关(图4f)。这些观察结果强调了全面识别次级代谢途径对理解人类疾病中的肠道宏基因组功能的重要性。
图4. SPMP基因组中基因家族的表征
全文总结
本研究通过深入的混合组装宏基因组分析大幅增加现有数据库的能力突出了该策略应用于东南亚等研究不足的地理区域的价值,突出了亚洲未特化微生物多样性的重要性,并为世界各地的精准医疗计划提供了针对人群的“platinum”宏基因组参考模板。
参考文献:
Gounot, JS., Chia, M., Bertrand, D. et al. Genome-centric analysis of short and long read metagenomes reveals uncharacterized microbiome diversity in Southeast Asians. Nat Commun 13, 6044 (2022). //doi.org/10.1038/s41467-022-33782-z