中文文本聚类常用停用词表对比研究
2017-03-25分类号:TP391.1
【部门】南京大学信息管理学院 江苏省数据工程与知识服务重点实验室
【摘要】【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素
【关键词】文本聚类 停用词 K-means
【基金】中国地震局星火计划攻关项目“面向地震应急的空间智能决策方法研究”(项目编号:XH15019);; 江苏省自然科学基金项目“面向专利预警的中文文本学习研究”(项目编号:BK20130587)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递