标题
  • 标题
  • 作者
  • 关键词

基于维基百科的多种类型文献自动分类研究

2017-10-17分类号:TP391.1

【作者】李湘东  阮涛  刘康  
【部门】武汉大学信息管理学院  武汉大学电子商务研究与发展中心  
【摘要】【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题,以提高文本分类效果。【方法】在特征扩展之前,对TF-IDF加以改进,提出并使用一种新的特征选择方法 CDFmax-IDF获得候选词集;在使用维基百科进行特征扩展时,通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关系并进行融合得到词语间的语义相关度实现特征扩展;针对扩展得到的特征,提出一种改进的LDA概率主题模型w LDA模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN和SVM三种分类器上实现分类,其
【关键词】多种类型文献  文本分类  特征选择  特征扩展  维基百科
【基金】国家社会科学基金项目“多种类型文本数字资源自动分类研究”(项目编号:15BTQ066)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递