一种融合α度量的混合数据K-prototypes算法
2023-05-29分类号:TP181;TP311.13
【部门】山西财经大学统计学院
【摘要】在大数据背景下,分类型数据与混合型数据开始大量出现,如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式,模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异性等优点而得到推广使用。模糊类中心是定和为1的频率向量,这同时也符合成分数据的定义,因此,文章引入成分数据处理方式,提出一种融合α度量的改进K-prototypes算法(α-K-prototypes)。针对α度量的特殊性设定了权重调整系数,让分类型数据距离更具有解释性。在实验对比后发现,α-K-prototypes算法在UCI的7个数据集上均优于K-prototypes、K-centers、Improved-K-prototypes算法。为了更好地在实际中应用,文章给出了一种较优α计算准则,并证明其在统计意义上是显著的。
【关键词】聚类分析 成分数据 混合数据 模糊类中心
【基金】山西省基础研究计划项目(202103021223304);; 山西省高等学校教学改革创新项目(J20220570)
【所属期刊栏目】统计与决策
文献传递