自然群体多性状表型缺失值预测方法的比较
2021-09-14分类号:Q348
【部门】南京农业大学理学院
【摘要】[目的]表型数据缺失是影响全基因组关联分析准确性的重要原因之一,利用统计学方法对缺失表型进行有效预测,可以增大样本容量并提高数据分析的准确性。多性状联合插补分析可以利用性状之间的遗传结构,并同时对多个表型缺失值进行预测,省时高效。[方法]本研究利用均值法、KNN(k-nearest neighbor)、决策树、MICE(multiple imputation by chained equations)、PHENIX(phenotype imputation expediated)和softImpute插补方法对多表型模拟缺失数据进行预测,比较在不同表型缺失率、性状个数、样本量和性状相关性下的插补效果。进一步,对拟南芥真实数据的长日照花期、短日照花期、春化长日照花期和春化短日照花期的表型缺失值进行多性状联合插补,并通过全基因组关联分析验证插补数据的可靠性。[结果]模拟研究表明,随着表型缺失率的增大,插补的准确性不断下降;随着性状个数和性状相关性增大,插补的准确性不断上升;样本量越大插补效果越稳定。在实际数据分析中,多性状联合插补的效果与模拟试验相似,并通过全基因组关联分析和已验证基因检验了插补数据的可靠性。[结论]表型缺失率、性状个数、性状相关性对缺失数据插补效果影响较大,多性状联合插补方法PHENIX、决策树和KNN可以利用性状之间的遗传结构,因此在模拟研究和实际数据分析中更精确、有效。
【关键词】表型缺失数据 预测 插补 多性状 基因
【基金】中央高校基本科研业务费专项资金(JCQY202108);; 国家自然科学基金青年基金项目(32070688,31301229)
【所属期刊栏目】南京农业大学学报
文献传递