标题
  • 标题
  • 作者
  • 关键词

基于Canopy+K-means的中文文本聚类算法

2017-12-06分类号:暂无

【作者】张琳  牟向伟  
【部门】大连海事大学
【摘要】随着互联网的发展,网络电子文本的数量急剧增加,这给人们快速高效地从海量数据中挖掘所需要的信息带来了巨大挑战。文本聚类是解决这个问题的一种可行方法。本文在文本聚类的过程中,针对K-means算法在聚类时需要事先指定簇的个数k和k个初始中心点这两方面的不足,采用Canopy+K-means的聚类算法进行中文文本聚类。也就是为了提高K-means的聚类效果,先使用Canopy算法对数据进行“粗”聚类,在得到k值和聚类中心后再使用K-means算法进行“细”聚类。另外,在聚类过程中,为了避免“维灾难”现象,本文基
【关键词】K-means  Canopy  文本聚类  Word2vec
【基金】本文系中国博士后科学基金资助项目“大数据环境下基于异构图的文本聚类在自动文摘中的应用”(项目编号: 2015M571292)和中央高校基本科研业务费专项资金资助项目“大数据环境下基于Spark的文本聚类研究” (项目编号:3132017089)研究成果。
【所属期刊栏目】图书馆论坛
文献传递