一种基于语义的中文文本分类算法
2012-03-30分类号:TP391.1
【部门】西安电子科技大学经济管理学院
【摘要】针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。
【关键词】文本分类 语义向量空间 向量空间模型 语义相似度 算法
【基金】
【所属期刊栏目】情报理论与实践
文献传递