基于自然最近邻的不平衡数据欠采样方法
2023-08-04分类号:TP311.13
【部门】河北金融学院金融科技学院 河北金融学院信息工程与计算机学院
【摘要】针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。
【关键词】不平衡数据集 欠采样 自然最近邻
【基金】河北省高校智慧金融应用技术研发中心项目(IFDC2022030C);; 河北省高等学校科学技术研究项目(QN2021220);; 河北省省级科技计划软科学研究专项(22557648D)
【所属期刊栏目】统计与决策
文献传递