标题
  • 标题
  • 作者
  • 关键词

编制价格指数的爬虫数据抽样方法研究

2024-07-02分类号:TP311.13;F724.6;F426.82

【作者】雷兵   梁凯凯   刘维
【部门】河南工业大学管理学院  
【摘要】文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。
【关键词】价格指数  爬虫数据  分层抽样  聚类算法  样本匹配
【基金】国家社会科学基金一般项目(18BGL268);; 河南省高校哲学社会科学创新团队资助项目(2019-CXTD-04)
【所属期刊栏目】统计与决策
文献传递