基于共线性长测序数据单染色体组装方法

2024-06-05分类号：Q811.4

【作者】李梦然甘祥超

【部门】南京农业大学前沿交叉研究院/人工智能学院

【摘要】[目的]本文旨在提出一种基于长测序数据的单染色体组装方法，能够更加准确高效的组装出完整的基因组。[方法]利用GALA中的染色体分离算法，将初步组装中的contigs按染色体进行聚类，然后提取测序数据中的reads进行单染色体组装。由于受到测序数据质量和预组装结果的影响，有时contigs的聚类结果不够完美，导致后续单染色体组装难度增加。为了克服这一问题，提出了一种基于共线性分析辅助聚类的方法。该方法利用同物种或亲缘关系较近物种的参考基因组与GALA聚类生成的scaffolding groups进行共线性分析，根据比对结果将属于同一条染色体的scaffolding groups进行合并，使scaffolding groups中的序列长度与整条染色体相当，再根据合并后的结果提取reads进行单染色体组装。[结果]这套方法被应用在水稻（Oryza sativa）和桃金娘（Rhodomyrtus tomentosa）基因组组装，利用ONT的水稻测序数据组装出了长度379.89 Mb，N50为30.54 Mb，包含12条完整的端粒到端粒的染色体。基于HiFi测序数据组装出了总长度485.54 Mb，包含11条染色体，N50为46.71 Mb，不存在任何gap的桃金娘基因组。[结论]本文提出的组装方法不仅组装出了准确完整的基因组，而且在面对不同种类的测序数据时具有很强的适用性，为后续开展基因组学的相关研究提供了可靠数据资源。

【关键词】基因组组装长测序数据单染色体组装无间隙

【基金】国家自然科学基金项目(32170647);; 江苏省自然科学基金项目(JSSCRC2021508，BE2022383)

【所属期刊栏目】南京农业大学学报

文献传递