影响投影寻踪聚类建模的关键因素分析与实证研究
2017-07-14分类号:O212.1
【部门】上海商学院管理学院 上海理工大学光电学院计算机工程系 上海商学院东方财富传媒与管理学院
【摘要】讨论了由于对Friedman等提出的投影寻踪聚类(PPC)建模基本思想的理解不同而提出的六种目标函数的特点和区别,分析了样本数据三种归一化预处理方法的区别与联系,阐述了四种取不同R值方案的本质和内涵。通过实证研究和理论分析发现,目标函数Q(a)=S_z*D_z不仅应用最广,且最能体现投影寻踪的基本思想,目标函数Q(a)=S_z+D_z存在大数吃小数的问题,目标函数Q(a)=1/S_z+μ*D_z~*仅适用于高相似度的大样本数据情况,但并没有取得更好的效果,目标函数Q(a)=S_z*C*E和Q(a)=S_z*D_z*E通过增加权重信息熵和样本投影值信息熵,但并没有取得更好的聚类效果,目标函数Q(a)=S_z不符合PPC基本建模思想。样本数据不同归一化预处理方法对建模结果有显著影响,极大值归一化方法更能体现样本数据的原始结构特性,极差归一化方法有利于弱化指标之间的权重差异,去均值归一化方法可以弱化异常值的影响。局部密度窗口半径R值对建模结果有显著影响,R取较小值(R≤0.1S_z)方案更有利于区分样本,但不利于聚类,最优化过程有时候无法求得真正的全局最优解。R取较大值(2m≥R≥r_(max))方案的前提、推导过程和结果都是错误的。R=(r_(i,j))_((k))取值方案只有在类内样本之间距离的最大值小于类间样本之间距离的最小值的特殊情况下才具有意义。R在r_(max)/5≤R≤r_(max)/3范围内取适度值的方案是合理的,也与Friedman等提出的选取R合理值的思想是一致的。
【关键词】投影寻踪聚类技术 投影向量系数(权重) 目标函数 数据归一化方法 局部密度窗口半径R
【基金】中央财政资金支持专项(ZYCZ-ZDXK-GSGL2015); 2016年度全国统计科学研究一般项目(2016LY93)
【所属期刊栏目】数理统计与管理
文献传递