大规模数据下基于充分降维的Leverage重要性抽样方法
2020-03-11分类号:C81
【部门】对外经济贸易大学统计学院 中国人民大学统计学院 中央财经大学统计与数学学院 中央财经大学金融学院
【摘要】随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重要性的Leverage分数与因变量无关,而且在维度较大的情形下对样本没有区分程度,使得估计结果较差。为了同时考虑因变量和维度的影响,本文提出了基于充分降维的Leverage重要性抽样方法。该方法以不损失信息为前提,在充分降维的空间内重新计算Leverage分数,使得抽样更具有代表性。模拟数据分析显示,在样本容量较大的复杂数据中,相比于原始的Leverage重要性抽样方法,本文提出的方法可以降低估计的均方误差。三个实际数据也证实了该方法的可行性和有效性。
【关键词】大规模数据 Leverage分数 重要性抽样 充分降维
【基金】国家社会科学基金重大项目“互联网+推动经济转型机理与对策研究”(15ZDC024);; 国家自然科学基金面上项目“货币总量转向信用总量:全球虚拟经济与实体经济背离机理与宏观政策应对”(71473279);国家自然科学基金青年项目“基于广义SICA惩罚函数的高维数据参数估计与变量选取研究”(61603092);; 对外经济贸易大学惠园优秀青年学者项目“大数据下的统计方法创新研究及其应用”(17YQ15);对外经济贸易大学青年学术创新团队建设项目“健康大数据的统计创新研究”(CXTD10-10)
【所属期刊栏目】统计研究
文献传递