基于动态获取高频率键的MapReduce性能优化算法
2018-09-17分类号:TP301.6
【部门】北京科技大学计算机科学与技术系 国家电网张家口供电公司信通分公司 天普大学计算机与信息科学系
【摘要】在云计算技术领域中,MapReduce能够帮助人们快速处理海量数据,因此在学术界以及工业界越来越受到重视。但是MapReduce在处理以文本为中心的应用时,中间结果中数据重复较多。针对该情况,已有的高频率缓冲(frequency buffering,FB)算法提出在环形内存缓冲之前添加哈希表,并将高频率键存储在哈希表中。该算法通过采样来实现,有额外开销并且统计出的高频率键并不一定准确。该文提出一种基于动态获取高频率键的MapReduce性能优化算法,通过在环形内存缓冲之前增加计数Bloom过滤器(counting Bloom filter,CBF)和哈希表,将高频率键动态地存储在哈希表中。该算法获得的高频率键更准确,同时大大减少了数据排序和磁盘I/O的开销。实际测试结果表明:该算法明显提高了作业的执行速度,比原始MapReduce提高17.04%,比FB算法提高9.31%。
【关键词】MapReduce 高频率键 性能优化 计数Bloom过滤器
【基金】国家重点研发计划项目(2017YFB0202104,2017YFB0202003)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递