一种融合α度量的混合数据K-prototypes算法

2023-05-29分类号：TP181;TP311.13

【作者】陈佳佳张旺刘东海张晓琴

【部门】山西财经大学统计学院

【摘要】在大数据背景下，分类型数据与混合型数据开始大量出现，如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式，模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异性等优点而得到推广使用。模糊类中心是定和为1的频率向量，这同时也符合成分数据的定义，因此，文章引入成分数据处理方式，提出一种融合α度量的改进K-prototypes算法（α-K-prototypes）。针对α度量的特殊性设定了权重调整系数，让分类型数据距离更具有解释性。在实验对比后发现，α-K-prototypes算法在UCI的7个数据集上均优于K-prototypes、K-centers、Improved-K-prototypes算法。为了更好地在实际中应用，文章给出了一种较优α计算准则，并证明其在统计意义上是显著的。

【关键词】聚类分析成分数据混合数据模糊类中心

【基金】山西省基础研究计划项目（202103021223304）;; 山西省高等学校教学改革创新项目（J20220570）

【所属期刊栏目】统计与决策

文献传递