标题
  • 标题
  • 作者
  • 关键词

基于稀疏表示的大数据在政府统计工作中应用

2015-11-18分类号:TP311.13;C81

【作者】张乾  金升菊  罗玉坤  
【部门】贵州省模式识别与智能系统重点实验室  贵州民族大学工程实训中心  贵州省统计科研教育中心  
【摘要】针对大数据对政府统计工作影响越来越大的现状,文章提出了一种基于稀疏表示的大数据统计算法框架。首先利用了有放回Bootstrap在数据中的样本和特征上采样形成不同数据子集,用多形态保留相似性方法融合子集中的异构数据,再在融合数据上作数据变换使得数据方便处理和富有信息,最后将变换后数据形成基元字典,基元字典加权构成稀疏表示的字典矩阵。建议算法在加利福尼亚大学机器学习UCI数据库中的Gisette和Internet Advertisements两个数据集进行了大量实验,实验表明,建议算法在数据集都具有最高的分类正确率和最快的运算速度。
【关键词】大数据  稀疏表示  统计工作  基元字典
【基金】国家自然科学基金资助项目(61263034);; 国家民委教改项目(13064);; 2014年贵州省统计科研项目
【所属期刊栏目】统计与决策
文献传递