基于自适应迭代更新的函数型数据聚类方法研究

2015-04-15分类号：TP311.13

【作者】王德青刘晓葳朱建平

【部门】中国矿业大学管理学院厦门大学经济学院统计系厦门大学数据挖掘研究中心厦门大学两岸关系和平发展协同创新中心厦门大学经济学院中国统计学会教育部高等学校统计学类专业教学指导委员会中国统计教育学会

【摘要】函数型数据的稀疏性和无穷维特性使得传统聚类分析失效。针对此问题,本文在界定函数型数据概念与内涵的基础上提出了一种自适应迭代更新聚类分析。首先,基于数据参数信息实现无穷维函数空间向有限维多元空间的过渡;在此基础上,依据变量信息含量的差异构建自适应赋权聚类统计量,并依此为函数型数据的相似性测度进行初始类别划分;进一步,在给定阈值限制下,对所有函数的初始类别归属进行自适应迭代更新,将收敛的优化结果作为最终的类别划分。随机模拟和实证检验表明,与现有的同类函数型聚类分析相比,文中方法的分类正确率显著提高,体现了新方法的相对优良性和实际问题应用中的有效性。

【关键词】函数型数据分析自适应权重迭代更新聚类分析

【基金】国家社会科学基金重大项目“大数据与统计学理论的发展研究”(13&ZD148)阶段性研究成果;国家社会科学基金项目“金融高频数据挖掘方法及应用研究”(11BTJ001);; 国家自然科学基金青年项目“基于非参数随机森林的分类预测方法及其应用”(710201139)资助

【所属期刊栏目】统计研究

文献传递