标题
  • 标题
  • 作者
  • 关键词

基于混合成对惩罚的多个数据集效应异质性分析

2024-09-25分类号:TP311.13;O212.1

【作者】孙怡帆   姚一枝   于雪
【部门】中国人民大学应用统计科学研究中心、统计学院、未来区块链与隐私计算高精尖创新中心  中国人民大学应用统计科学研究中心、统计学院  
【摘要】大数据通常是由主体或来源各异的多个数据集融合而成,因此同一个自变量对因变量的影响在不同数据集间可能存在差异,即效应异质性。从数据中挖掘出潜在的效应异质性已成为大数据分析的重要目标之一。基于融合惩罚和成对惩罚的整合分析方法是目前较为主流的两类效应异质性分析方法,但前者高度依赖模型系数的排序,而后者则计算量较大。为此,本文提出基于混合成对惩罚的新型整合分析方法。相比基于融合惩罚的整合分析方法,新方法对模型系数排序的敏感度大大降低。相比基于成对惩罚的整合分析方法,新方法减少了大量的冗余惩罚项,在降低计算量的同时提高了结果准确性。大量的模拟实验和黑色素瘤的致病基因识别应用研究均展示了新方法在识别效应异质性方面的优势。
【关键词】大数据  效应异质性  混合成对惩罚  整合分析
【基金】中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目“高维数据效应异质性挖掘的方法、理论与应用”(23XNL014)
【所属期刊栏目】统计研究
文献传递