标题
  • 标题
  • 作者
  • 关键词

基于特征边界欠采样的不平衡数据处理方法

2021-06-04分类号:TP311.13

【作者】孟东霞  李玉鑑  
【部门】河北金融学院金融科技学院  桂林电子科技大学人工智能学院  
【摘要】针对实际应用中不平衡数据集分类效果较差的问题,文章提出一种基于特征边界信息进行欠采样的数据处理方法。所提方法根据特征边界点的定义获得多数类样本中可构造特征边界的数据点,其分布在最优非线性分类决策面附近,通常包含重要的分类信息,在欠采样时应进行保留,其他多数类样本远离分类决策面,在分类中易于识别,可在聚类后选取部分样本和少数类样本构成平衡数据集。该方法保留了多数类样本的几何分布特征,降低了样本的信息流失率。对比实验利用支持向量机进行分类,实验结果表明该方法有利于提高不平衡数据中少数类的分类精度,验证了算法的有效性。
【关键词】平衡数据集  欠采样  特征边界  聚类
【基金】国家自然科学基金资助项目(61876010);; 河北省高校智慧金融应用技术研发中心基金项目(XGZJ2020008)
【所属期刊栏目】统计与决策
文献传递