基于Spark的扩展孤立森林算法并行化改造实验设计
2023-02-16分类号:TP311.13
【部门】常熟理工学院计算机科学与工程学院 苏州大学计算机科学与技术学院
【摘要】针对海量或高维数据进行异常检测实验时,往往检测速度较慢、效率较低。针对此问题,设计了一种基于Spark分布式计算的扩展孤立森林异常检测算法改造实验。实验基于Spark框架,分别在数据抽样、训练、预测等阶段设计并行化改造方法,通过与单核条件下的算法对比,验证了并行化方法在保证准确性的前提下执行效率得到大大提高。此实验对加深学生对大数据分布式并行处理知识的理解,引导其对海量数据挖掘相关技术的学习兴趣具有积极作用。
【关键词】大数据并行化 异常检测 孤立森林 数据挖掘 实验设计
【基金】中国高等教育学会“十四五”规划专项课题(21JSYB16);; 国家自然科学基金项目(61972059)
【所属期刊栏目】实验技术与管理
文献传递