基于稀疏表示的大数据在政府统计工作中应用
2015-11-18分类号:TP311.13;C81
【部门】贵州省模式识别与智能系统重点实验室 贵州民族大学工程实训中心 贵州省统计科研教育中心
【摘要】针对大数据对政府统计工作影响越来越大的现状,文章提出了一种基于稀疏表示的大数据统计算法框架。首先利用了有放回Bootstrap在数据中的样本和特征上采样形成不同数据子集,用多形态保留相似性方法融合子集中的异构数据,再在融合数据上作数据变换使得数据方便处理和富有信息,最后将变换后数据形成基元字典,基元字典加权构成稀疏表示的字典矩阵。建议算法在加利福尼亚大学机器学习UCI数据库中的Gisette和Internet Advertisements两个数据集进行了大量实验,实验表明,建议算法在数据集都具有最高的分类正确率和最快的运算速度。
【关键词】大数据 稀疏表示 统计工作 基元字典
【基金】国家自然科学基金资助项目(61263034);; 国家民委教改项目(13064);; 2014年贵州省统计科研项目
【所属期刊栏目】统计与决策
文献传递