标题
  • 标题
  • 作者
  • 关键词

基于LSI理论的文本自动聚类研究

2012-06-05分类号:TP391.1

【作者】常娥  
【部门】东南大学图书馆  东南大学科技情报研究所  
【摘要】结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。
【关键词】文本聚类  LSI模型  N-gram算法  K-means算法
【基金】教育部人文社会科学基金项目“中文原生数字资源管理研究”(项目编号:08JC870002)研究成果之一
【所属期刊栏目】图书情报工作
文献传递