大规模数据下基于充分降维的Leverage重要性抽样方法

2020-03-11分类号：C81

【作者】秦磊王奕丹苏治

【部门】对外经济贸易大学统计学院中国人民大学统计学院中央财经大学统计与数学学院中央财经大学金融学院

【摘要】随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重要性的Leverage分数与因变量无关,而且在维度较大的情形下对样本没有区分程度,使得估计结果较差。为了同时考虑因变量和维度的影响,本文提出了基于充分降维的Leverage重要性抽样方法。该方法以不损失信息为前提,在充分降维的空间内重新计算Leverage分数,使得抽样更具有代表性。模拟数据分析显示,在样本容量较大的复杂数据中,相比于原始的Leverage重要性抽样方法,本文提出的方法可以降低估计的均方误差。三个实际数据也证实了该方法的可行性和有效性。

【关键词】大规模数据 Leverage分数重要性抽样充分降维

【基金】国家社会科学基金重大项目“互联网+推动经济转型机理与对策研究”(15ZDC024);; 国家自然科学基金面上项目“货币总量转向信用总量:全球虚拟经济与实体经济背离机理与宏观政策应对”(71473279);国家自然科学基金青年项目“基于广义SICA惩罚函数的高维数据参数估计与变量选取研究”(61603092);; 对外经济贸易大学惠园优秀青年学者项目“大数据下的统计方法创新研究及其应用”(17YQ15);对外经济贸易大学青年学术创新团队建设项目“健康大数据的统计创新研究”(CXTD10-10)

【所属期刊栏目】统计研究

文献传递