不同筛选方法的低密度SNP集合填充准确性比较
2023-04-16分类号:S823
【部门】内蒙古民族大学动物科技学院 中国农业科学院北京畜牧兽医研究所 通辽京缘种牛繁育有限责任公司
【摘要】【目的】尝试通过在华西牛参考群高密度标记芯片位点中,使用两种标记筛选方法挑选具有代表性的且密度梯度不同的SNP位点集合,后利用基因组填充策略在相同填充参数下将低密度芯片数据填充至高密度继而进行后续基因组研究,从而达到降低华西牛基因型分型成本的目的。研究分别比较了不同标记集合填充准确性和填充一致性的差异,阐述了标记筛选方法、标记密度、最小等位基因频率和参考群体数量等4个因素对填充结果的影响,为华西牛低密度SNP填充芯片设计提供参考。【方法】将质控后剩余的1 233头华西牛群体随机分为参考群(986头)和验证群(247头)。使用等间距法(equidistance,EQ)和高MAF法(high MAF,HM)两种标记筛选方法分别从华西牛参考群体的Illumina Bovine HD芯片位点集合中筛选出16种不同密度的SNP集合,共生成32种不同SNP梯度密度集合。随后在验证群体中利用Beagle(v5.1)软件将各低密度集合填充至770 k密度水平,计算填充准确性和填充一致性并对填充性能影响因素进行分析。【结果】32种低密度SNP集合的标记数量在100—16 000之间,窗口最大为24 176 kb,最小151 kb。随着标记密度升高,EQ和HM两种筛选方法填充一致性和准确性不断提升,但填充准确性和填充一致性增加的幅度越来越小。当标记集合密度超过12 k后均趋于平稳。SNP密度在16 k时两种方法的填充准确性达到最高(r~2_(EQ)=0.8801,r~2_(MAF)=0.8696)。当标记密度低于11 k时,不同标记密度梯度下HM方法填充一致性均高于EQ方法。然而当SNP集合密度超过11 k时,EQ筛选方法较表现出填充优势。与填充一致性结果趋势相似,在SNP集合密度低于10 k时,HM方法仍然具有较高的填充准确性,但当SNP集合密度高于10 k时,EQ方法的填充准确性则较高,且在SNP密度集合大于12 k后,EQ填充准确性趋于稳定。同时研究发现与低MAF标记位点相比,高MAF位点的填充准确性更高。填充过程中发现,填充一致性和填充准确性随着参考群体增大而提高。当参考群体数量在600—800时,位点填充准确性和一致性较高。【结论】在华西牛群体中,填充一致性和填充准确性随标记密度递增而上升,在标记密度为10 k—12 k区间,可获得较好的填充效果。当标记密度小于10 k时优先选择HM方法,更高密度时EQ方法较好。高MAF标记位点填充准确性更高。采用填充策略进行低密度标记填充时,参考群体数量在400头以上时填充效果较为理想。
【关键词】填充准确性 低密度SNP芯片 华西牛 连锁不平衡 最小等位基因频率
【基金】内蒙古自治区第五批“草原英才”工程产业创新创业人才团队专项;; 内蒙古自然科学基金面上项目(2019MS03077);; 内蒙古自治区科技计划项目(KJXM2020002-05);; 青年科学基金(32102505)
【所属期刊栏目】中国农业科学
文献传递