面向不平衡数据集分类的LDBSMOTE过采样方法
2022-09-21分类号:TP181
【部门】华南农业大学数学与信息学院 广东省科技管理与规划研究院
【摘要】文章针对传统SMOTE及BSMOTE过采样方法会导致多数类样本识别率下降的问题,提出基于局部密度的改进BSMOTE算法(LDBSMOTE)。首先,根据样本分布特点计算局部密度值并筛选根样本,最大限度地保证具有潜在价值的样本不会被丢失,然后通过SMOTE合成样本,最后利用集成学习算法进行分类。为了验证LDBSMOTE的有效性对15个公共数据集进行实验,结果表明,相比SMOTE和BSMOTE,LDBSMOTE算法在F1、G-mean及AUC上平均提升了2.25%,且平均得分均为最高,能在保证多数类样本识别率的基础上提升少数类样本的识别率,有效提升分类性能。
【关键词】不平衡数据集 局部密度 SMOTE 集成学习
【基金】国家自然科学基金面上项目(71971089)
【所属期刊栏目】统计与决策
文献传递