卡方统计中基于KL散度的高维文本数据特征筛选
2022-09-05分类号:TP391.1
【部门】通化师范学院计算机学院 南京特殊教育师范学院数学与信息科学学院
【摘要】特征的高维性和数据的稀疏性问题会严重影响分类的准确性,卡方统计可以在保持分类精度不变的情况下,有效地对高维文本数据特征进行筛选。文章通过KL散度检验观测值与理论值的偏差程度,用KL散度度量特征与类别之间的相关性,改进了现有的最大或平均全局评价方法。采用KNN分类模型在标准数据集上进行实验的结果表明,所提方法在大幅度降低文本数据特征向量空间维数的同时,还能推动分类性能的提高。
【关键词】卡方统计 KL散度 高维文本数据 特征筛选
【基金】国家自然科学基金资助项目(60673186);; 江苏省高等学校自然科学研究重大项目(19KJA310002);; 江苏省高等学校自然科学研究项目(17KJD520006);; 吉林省教育厅科学研究项目(JJKH20210533KJ)
【所属期刊栏目】统计与决策
文献传递