单位名录库更新:互联网大数据源及其数据质量评估
2017-01-15分类号:TP311.13
【部门】兰州财经大学统计学院 国家统计局统计科学研究所 兰州财经大学
【摘要】在大数据时代,互联网数据资源的充分利用对提高政府统计能力的影响是不可忽视的,但互联网数据质量问题值得探讨。以单位名录库为研究对象,本文讨论了互联网数据作为单位名录库更新数据源的质量评估方法,从多维度视角比较分析了互联网数据源与传统数据源的数据质量;从准确性方面探讨了互联网数据源的数据质量评估框架,给出了单源质量评估、多源整合评估、事件信息辅助评估的做法和要点。分析结果表明,互联网数据源能够完成名录库"及时更新"的任务,可以辅助实现名录库更新的"真实准确"和"不重不漏",但不足以生成"统一完整"的名录库。同时,本文利用大众点评网、百度糯米网、地理信息系统等异源异构数据整合,给出了一个餐饮业名录库更新的数据质量评估实例。
【关键词】大数据 名录库 政府统计 数据质量
【基金】国家自然科学基金项目“基于涵盖误差的我国周期性普查数据质量评估方法:理论与应用研究”(71301033);; 国家社会科学基金青年项目“基于大数据整合的空气质量测度方法研究”(14CTJ009);; 全国统计科研计划项目“基于普查涵盖误差测量技术的基本单位名录库维护与更新研究”(2011LX003);; 陇原青年创新人才扶持计划项目“基于大数据整合的‘废旧数据’应用研究”(14GSD95);; 甘肃省财政厅高校基本科研业务费项目“大数据整合下的统计调查技术及其经济应用研究”(GZ14007)资助
【所属期刊栏目】统计研究
文献传递