一种面向海量数据的spilt-and-conquer方法
2018-08-31分类号:F224
【部门】南昌大学管理学院 江西行政学院 中国人民银行沧州市中心支行
【摘要】Lasso是一种能很好进行变量选择的方法,已被广泛应用。但面对高维海量数据集的时候会存在计算机消耗过大的情况。针对这种情况,文章提出一种spilt-and-conquer方法。首先把高维数据集均分成K份,进行变量选择,把每份选择出来的特征集进行合并后再进行变量选择。为了验证方法的优越性,使用了六组数据集进行实验。最后通过SVM、随机森林、神经网络的预测结果表明,spilt-and-conquer方法,在处理高维海量数据时具有很好的特性,并很大程度上节省了运行时间。
【关键词】spilt-and-conquer方法 变量选择 高维数据
【基金】
【所属期刊栏目】统计与决策
文献传递