零膨胀计数数据的联合建模及变量选择
2019-01-25分类号:O212.1
【部门】郑州大学商学院经济统计系 教育部人文社会科学重点研究基地中国人民大学应用统计科学研究中心 中国人民大学
【摘要】零膨胀计数数据破坏了泊松分布的方差-均值关系,可由取值服从泊松分布的数据和取值为零(退化分布)的数据各占一定比例所构成的混合分布所解释。本文基于自适应弹性网技术,研究了零膨胀计数数据的联合建模及变量选择问题。对于零膨胀泊松分布,引入潜变量,构造出零膨胀泊松模型的完全似然,由零膨胀部分和泊松部分两项组成。考虑到协变量可能存在共线性和稀疏性,通过对似然函数加自适应弹性网惩罚得到目标函数,然后利用EM算法得到回归系数的稀疏估计量,并用贝叶斯信息准则BIC来确定最优调节参数。本文也给出了估计量的大样本性质的理论证明和模拟研究,最后把所提出的方法应用到实际问题中。
【关键词】零膨胀泊松模型 变量选择 联合建模
【基金】中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目“大数据分析的稳健统计理论与应用研究”(18XNL012)的资助
【所属期刊栏目】统计研究
文献传递