标题
  • 标题
  • 作者
  • 关键词

考虑数据源网络结构的高维数据整合分析与子群识别研究

2022-07-25分类号:TP311.13

【作者】方匡南  张晴雯  林洪伟  
【部门】厦门大学经济学院  香港科技大学  
【摘要】大数据时代,收集到的数据维度越来越高,数据来源也越来越多。针对多源高维数据,本文提出了一种考虑数据源网络结构的多源高维数据整合分析方法,利用k近邻方法构建数据源间的网络结构,对于有网络连接的数据集的模型系数施加NetworkMCP惩罚来自动识别同质数据和异质数据,并利用MCP惩罚筛选每个数据集的重要变量,能同时进行各数据源的模型估计、变量选择以及数据源的子群识别。模拟实验表明,在不同的模拟设置下本文所提方法在变量选择、参数估计和分类预测准确率上都有良好的效果。最后,将该方法应用到房地产租赁评价数据上,利用经纬度位置信息构建数据源间的网络结构,可以很好地识别出房地产子市场,并在模型上具有更好的解释性。
【关键词】多源高维数据  整合分析  网络结构  子群识别
【基金】国家自然科学基金面上项目“基于多源信息融合的高维分类方法及其在信用评分中的应用”(72071169);; 教育部人文社会科学研究青年基金“基于半监督学习的消费金融风控方法与应用研究”(20YJC910004);; 国家社会科学基金重大项目“国家治理能力现代化的测度理论、方法与进展评价研究”(21&ZD146)
【所属期刊栏目】统计研究
文献传递