大数据背景下概率-非概率样本的数据整合推断——从误差校正的视角出发
2023-07-28分类号:C81
【部门】首都经济贸易大学统计学院 中国人民大学应用统计科学研究中心 中国人民大学统计学院
【摘要】以互联网为媒介的调查数据采集具有成本低、速度快等优势,但这些样本通常属于非概率样本,存在覆盖误差和选择性偏差,不具有总体代表性,无法直接用于有限总体推断。基于概率-非概率样本的数据整合,可以综合两类样本的优势,处理这些非概率样本偏差。本文将非概率样本看作有限总体的不完全覆盖,在假定概率样本和非概率样本有重合的前提下,构造数据整合事后分层与校准估计。该假定是校准的基础,在此框架下考虑测量误差的校正,在概率样本或非概率样本存在测量误差的情况下,提出基于无偏误真值的校准和基于有偏误测量值修正的校准两种思路。此外,本文还提出基于Bagging决策树的半监督分类法,用于识别非概率样本和概率样本的重合部分,这在实际工作中具有较强的指导意义。
【关键词】数据整合 非概率样本 测量误差 校准法 Bagging决策树
【基金】首都经济贸易大学新入职青年教师科研启动基金资助(XRZ2023076)
【所属期刊栏目】统计研究
文献传递