标题
  • 标题
  • 作者
  • 关键词

SMOTE混合抽样对非平衡数据分类效果的影响分析

2020-01-14分类号:C81

【作者】王蕾  刘赛可  夏利宇  
【部门】中国人民大学统计学院  国网能源研究院有限公司  
【摘要】本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,过抽样和欠抽样的比例越高,预测效果越好,但是在某些情况下,直接使用原始数据进行建模,选取一个合适的临界值,可以得到更理想的分类模型。通过对某担保公司的数据实证研究发现,前述结论基本成立,且当原始数据极不平衡时,采用混合抽样方法进行数据预处理可以有效提高模型的预测效果,这对于非平衡数据的建模分析过程有一定的指导意义。
【关键词】非平衡数据  SMOTE过抽样  欠抽样  混合抽样  分类效果
【基金】
【所属期刊栏目】调研世界
文献传递