标题
  • 标题
  • 作者
  • 关键词

基于大数据的小微企业统计信息采集策略

2017-07-20分类号:F276.3

【作者】张玉明  张远远  
【部门】山东大学管理学院  
【摘要】小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。
【关键词】大数据  小微企业信息  信息不对称  Web信息采集  主题聚焦网络爬虫
【基金】国家社会科学基金重大项目(15ZDB157);国家社会科学基金重点项目(12AZD098);; 国家统计局全国统计科学研究重点项目(2013LZ23)
【所属期刊栏目】统计与决策
文献传递