标题
  • 标题
  • 作者
  • 关键词

基于关键词的学术文本聚类集成研究

2019-08-23分类号:TP391.1

【作者】张颖怡  章成志  陈果  
【部门】南京理工大学信息管理系  中国科学技术信息研究所  
【摘要】文本聚类是一种无监督且高效的文本类别划分方法。从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一。在学术文本聚类研究中,主要使用单一的聚类方法。目前,一部分提升聚类性能的方法被提出,聚类集成是其中之一。因此,根据聚类集成思想,本文开展了基于关键词的学术文本聚类研究。为分析聚类集成在学术文本聚类中的有效性,本文比较了非集成聚类算法与聚类集成算法的性能。同时,为分析关键词对聚类集成性能的影响,本文分析了不同关键词抽取方法和不同关键词个数下学术文本的聚类结果。实验结果表明,聚类集成算法能够提升学术文本聚类的性能。其中,当使用TextRank作为关键词抽取方法时,学术文本聚类结果较佳;随着关键词个数的增加,学术文本类别划分性能随之提升。
【关键词】抽取  文本聚类  主题划分  聚类集成
【基金】国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(17ZDA291);; 富媒体数字出版内容组织与知识服务重点实验室开放基金项目“富媒体数字出版内容的知识挖掘及发现技术研究”(ZD2018-07/01)
【所属期刊栏目】情报学报
文献传递