双向聚类方法综述
2019-08-19分类号:TP311.13
【部门】厦门大学经济学院统计系 新能源与储能运行控制国家重点实验室(中国电力科学研究院有限公司) 耶鲁大学生物统计系
【摘要】传统的聚类方法由于无法提取样本和变量间的局部对应关系,并且当数据具有高维性和稀疏性时表现不佳,因此学者们提出了双向聚类,基于样本和变量间的局部关系,同时对样本和变量进行聚类,形成一系列子矩阵的聚类结果。近年来,双向聚类发展迅速,在基因分析、文本聚类、推荐系统等领域应用广泛。首先,对双向聚类方法进行梳理与归纳,重点阐述稀疏双向聚类、谱双向聚类和信息双向聚类三类方法,分析它们之间的区别和联系,并且介绍这三类方法在多源数据的整合分析、多层聚类、半监督学习以及集成学习上的发展现状和趋势;其次,重点介绍双向聚类在基因分析、文本聚类、推荐系统等领域的应用研究情况;最后,结合大数据时代的数据特征和双向聚类存在的问题,展望双向聚类未来的研究方向。
【关键词】稀疏双向聚类 子矩阵 谱双向聚类 信息双向聚类
【基金】中央高校基本科研业务费专项资金资助(20720181003,20720171095);; 新能源与储能运行控制国家重点实验室开放基金资助(NYB51201801579)
【所属期刊栏目】数理统计与管理
文献传递