基于共线性长测序数据单染色体组装方法
2024-06-05分类号:Q811.4
【部门】南京农业大学前沿交叉研究院/人工智能学院
【摘要】[目的]本文旨在提出一种基于长测序数据的单染色体组装方法,能够更加准确高效的组装出完整的基因组。[方法]利用GALA中的染色体分离算法,将初步组装中的contigs按染色体进行聚类,然后提取测序数据中的reads进行单染色体组装。由于受到测序数据质量和预组装结果的影响,有时contigs的聚类结果不够完美,导致后续单染色体组装难度增加。为了克服这一问题,提出了一种基于共线性分析辅助聚类的方法。该方法利用同物种或亲缘关系较近物种的参考基因组与GALA聚类生成的scaffolding groups进行共线性分析,根据比对结果将属于同一条染色体的scaffolding groups进行合并,使scaffolding groups中的序列长度与整条染色体相当,再根据合并后的结果提取reads进行单染色体组装。[结果]这套方法被应用在水稻(Oryza sativa)和桃金娘(Rhodomyrtus tomentosa)基因组组装,利用ONT的水稻测序数据组装出了长度379.89 Mb,N50为30.54 Mb,包含12条完整的端粒到端粒的染色体。基于HiFi测序数据组装出了总长度485.54 Mb,包含11条染色体,N50为46.71 Mb,不存在任何gap的桃金娘基因组。[结论]本文提出的组装方法不仅组装出了准确完整的基因组,而且在面对不同种类的测序数据时具有很强的适用性,为后续开展基因组学的相关研究提供了可靠数据资源。
【关键词】基因组组装 长测序数据 单染色体组装 无间隙
【基金】国家自然科学基金项目(32170647);; 江苏省自然科学基金项目(JSSCRC2021508,BE2022383)
【所属期刊栏目】南京农业大学学报
文献传递