基于统计相关的缺失值数据处理研究
2016-06-30分类号:TP311.13
【部门】芜湖职业技术学院 中国科学技术大学
【摘要】针对数据库中存在缺失值的问题,文章建立了统计相关分析与机器学习相结合的缺失数据处理方法。首先利用统计相关性对原始数据进行分析,找出与缺失值属性相关度较大的属性,提取这些属性的已知值作为训练数据建立模型,再利用建立起来的模型估算缺失值。以UCI数据库真实的数据为例进行仿真,并对比分析了支持向量机、神经网络和决策树三种机器学习算法,实验结果表明利用相关度较大的已知属性值来训练学习,其估算值精度明显提高。
【关键词】缺失值 统计相关 决策树 支持向量机 神经网络
【基金】安徽省教育厅自然科学基金重点项目(KJ2016A767);; 芜湖职业技术学院自然科学基金项目(Wzyzr201618)
【所属期刊栏目】统计与决策
文献传递