标题
  • 标题
  • 作者
  • 关键词

基于稳健距离的大数据Logistic回归最优子抽样

2024-08-15分类号:O212.2

【作者】韩潇   王明秋   赵胜利
【部门】曲阜师范大学统计与数据科学学院  
【摘要】大数据统计分析在有限的计算资源下面临一些挑战性问题,用子数据代替全数据进行统计分析成为一种选择。文章基于最小协方差行列式的稳健距离,为大数据Logistic回归模型提出了一种更高效的子数据选择算法。通过大量的数值模拟,在不同的标准下比较了所提算法与其他已有算法的性能。结果表明,所提算法具有较高的估计效率和计算效率,与全数据相比,计算时间显著减少。与其他算法相比,所提算法得到的子数据信息矩阵行列式的值更大。同时,当协变量之间存在高度相关性时,所提算法具有稳健性。最后,通过对实际数据集的分析,说明了所提算法的预测误差更小。
【关键词】最小协方差行列式  信息矩阵  最优子抽样
【基金】国家自然科学基金面上项目(12271294;12171277)
【所属期刊栏目】统计与决策
文献传递