基于Spark的组合分类器链多标签分类方法
2017-04-15分类号:TP311.13
【部门】重庆邮电大学计算智能重庆市重点实验室
【摘要】随着数据挖掘技术在现实问题中的广泛应用,多标签学习现已成为数据挖掘技术中的一个研究热点.组合分类器链(ECC)算法是一种性能较好的多标签分类方法,其分类效果好、准确度高,但该算法的时空复杂度较高,不能适应大规模多标签数据分类任务.为此提出了一种基于Spark的组合分类器链多标签分类方法,将串行组合分类器链算法的各步骤进行了并行化实现.通过单机实验和集群并行化实验,证明该方法对大规模多标签数据集具有良好的适应能力和加速比,且分类效果不输于传统的串行多标签分类方法.
【关键词】多标签学习 组合分类器链 Apache Spark MapReduce
【基金】重庆市基础与前沿研究计划(cstc2014jcyjA40001,cstc2014jcyjA40022);; 重庆教委科学技术研究项目(KJ1400436)资助
【所属期刊栏目】中国科学技术大学学报
文献传递