标题
  • 标题
  • 作者
  • 关键词

Stemming和Lemmatization对英文文本聚类的影响研究

2012-07-30分类号:TP391.1

【作者】韩普  王东波  路高飞  
【部门】南京大学信息管理学院  
【摘要】词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。
【关键词】词干化  词形还原  文本聚类  信息检索
【基金】教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目编号:08JJD870225); 南京大学研究生科研创新基金资助项目“中英双语文本聚类技术及其应用研究”(项目编号:2011CW12)的成果之一
【所属期刊栏目】情报理论与实践
文献传递