基于不平衡数据集的机器学习算法研究
2019-06-21分类号:TP181
【部门】河南广播电视大学财会金融学院
【摘要】在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。
【关键词】不平衡数据集 机器学习 欠抽样 重复抽样
【基金】
【所属期刊栏目】统计与决策
文献传递