Logistic模型对非平衡数据的敏感性:测度、修正与比较
2016-02-15分类号:O212.1
【部门】东北财经大学博士后科研流动站 东北财经大学统计学院
【摘要】本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优。3AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它不能有效区分四种修正方法的优劣,而且修正前后的差异亦不能辨。
【关键词】Logistic模型 非平衡数据 ROC曲线 AUC值 平衡化的五折交叉验证
【基金】国家社会科学基金重大项目“大数据与统计学理论的发展研究”(13&ZD148)、国家社会科学基金青年项目“大数据背景下我国失业率水平的多维测度与动态修正研究”(15CRK017);; 中国博士后科学基金;; 东北财经大学博士后科研项目“统计学视角下的大数据应用问题研究:数据导向”(2014M561239,BSH201510)资助
【所属期刊栏目】统计研究
文献传递