基于语义网络社团划分的中文文本分类研究
2014-10-05分类号:TP391.1
【部门】西安电子科技大学经济与管理学院 西安邮电大学经济与管理学院
【摘要】为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。
【关键词】语义网络 词义消歧 社团结构 文本分类
【基金】国家自然科学基金项目“基于知识地图的对等网语义社区及其知识共享研究”(项目编号:71103138); 中央高校基础科研业务费资助项目“大数据背景下基于用户生成内容的商务智能模型研究”(项目编号:BDY231414)研究成果之一
【所属期刊栏目】图书情报工作
文献传递