基于MapReduce的数据流频繁项集挖掘算法
2017-08-15分类号:TP311.13
【部门】郑州轻工业学院计算机与通信工程学院
【摘要】针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.
【关键词】MapReduce 频繁项集 数据流 并行计算 数据挖掘
【基金】国家自然科学基金项目(61201447);; 河南省科技攻关项目(122102210492);; 河南省教育厅科学技术研究重点项目(13A520368,13A520367);; 河南省高等学校青年骨干教师资助计划项目(2014GGJS-084);; 郑州轻工业学院校级青年骨干教师培养对象资助计划项目(XGGJS02);郑州轻工业学院博士科研基金资助项目(2010BSJJ038)
【所属期刊栏目】华中师范大学学报(自然科学版)
文献传递