标题
  • 标题
  • 作者
  • 关键词

带有缺失数据的一种动态聚类方法

2012-11-01分类号:TP311.13

【作者】肖静  骆如九  宋雯  汤在祥  徐辰武  
【部门】南通大学公共卫生学院流行病与卫生统计学教研室  扬州大学江苏省作物遗传生理重点实验室  苏州大学医学部公共卫生学院流行病与卫生统计学教研室  
【摘要】【目的】探讨实际问题研究中的不完全数据聚类。【方法】利用相关变量的辅助信息,对缺失数据进行推估,确定其合理的替代值,从而构造出一个"完全"数据集。在此基础上以EM算法循环迭代,参数的估计值和缺失数据的替代值都将逐渐收敛,以相应的贝叶斯后验概率判别个体的归类,进而实现动态聚类。【结果】模拟研究表明,缺值替代法具有较好的收敛性,对有缺失的数据基本都可正确地聚类。【结论】Fisher的鸢尾花花类识别数据验证了缺值替代法的可行性,其聚类的准确性高于缺值删除法,基本接近完全数据聚类。
【关键词】聚类分析  缺失数据  后验概率  极大似然估计
【基金】国家自然科学青年基金项目(31000539,31100882); 江苏省重点实验室开放课题(K10003)
【所属期刊栏目】中国农业科学
文献传递