标题
  • 标题
  • 作者
  • 关键词

基于统计相关的缺失值数据处理研究

2016-06-30分类号:TP311.13

【作者】张松兰  王鹏  徐子伟  
【部门】芜湖职业技术学院  中国科学技术大学  
【摘要】针对数据库中存在缺失值的问题,文章建立了统计相关分析与机器学习相结合的缺失数据处理方法。首先利用统计相关性对原始数据进行分析,找出与缺失值属性相关度较大的属性,提取这些属性的已知值作为训练数据建立模型,再利用建立起来的模型估算缺失值。以UCI数据库真实的数据为例进行仿真,并对比分析了支持向量机、神经网络和决策树三种机器学习算法,实验结果表明利用相关度较大的已知属性值来训练学习,其估算值精度明显提高。
【关键词】缺失值  统计相关  决策树  支持向量机  神经网络
【基金】安徽省教育厅自然科学基金重点项目(KJ2016A767);; 芜湖职业技术学院自然科学基金项目(Wzyzr201618)
【所属期刊栏目】统计与决策
文献传递