标题
  • 标题
  • 作者
  • 关键词

不同特征对文本聚类效果的比较研究——以新闻文本为例

2019-09-03分类号:TP391.1

【作者】张旭  孙玉伟  成颖  
【部门】南京大学信息管理学院  山东师范大学图书馆  山东师范大学文学院  
【摘要】[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003—2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。
【关键词】TF-IDF  Word2Vec  Doc2Vec  文本聚类  比较研究  聚类分析
【基金】国家社会科学基金重大招标项目“中国近现代文学期刊全文数据库建设与研究(1872—1949)”的成果之一,项目编号:17ZDA276
【所属期刊栏目】情报理论与实践
文献传递