Logistic回归的双层变量选择研究
2014-09-15分类号:C81
【部门】厦门大学经济学院统计系 厦门大学经济学院 台湾辅仁大学统计资讯学系
【摘要】变量选择是统计建模的重要环节,选择合适的变量可以建立结构简单、预测精准的稳健模型。本文在logistic回归下提出了新的双层变量选择惩罚方法——adaptive Sparse Group Lasso(adSGL),其独特之处在于基于变量的分组结构进行筛选,实现了组内和组间双层选择。该方法的优点是对各单个系数和组系数采取不同程度的惩罚,避免了过度惩罚大系数,从而提高了模型的估计和预测精度。求解的难点是惩罚似然函数不是严格凸出的,因此本文基于组坐标下降法求解模型,并建立了调整参数的选取准则。模拟分析表明,对比现有代表性方法 Sparse Group Lasso、Group Lasso及Lasso,adSGL法不仅提高了双层选择精度,而且降低了模型误差。最后,本文将adSGL法应用于信用卡信用评分研究,与logistic回归相比,其具有更高的分类精度和稳健性。
【关键词】变量选择 群组变量 惩罚似然 信用评分
【基金】国家自然科学基金面上项目“广义线性模型的组变量选择及其在信用评分中的应用”(71471152);; 国家社会科学基金重大项目“大数据与统计学理论的发展研究”(13&ZD148);国家社会科学基金青年项目“大数据的高维变量选择方法及其应用研究”(13CTJ001)资助
【所属期刊栏目】统计研究
文献传递