基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例
2010-07-10分类号:TP391.1
【部门】武汉大学信息管理学院 武汉大学信息资源研究中心 武汉大学图书馆
【摘要】本文将期刊目录中按照主题设置的有关栏目(常设主题栏目)看作不同的类别,应用改进的KNN算法对属于不同类别(栏目)的期刊论文进行自动归类(归栏)处理。在分析期刊常设主题栏目特征的基础之上,从建立自动分类所需的训练文本集、测试集及分类(归栏)效果评价等多个方面加以定义,利用Jensen-shannon散度计算文本间的相似度,按照栏目动态决定k值等方面对KNN算法的基本原理加以改进。该方法以论文标题、摘要和作者关键词构成的短小文本为分类对象,对期刊常设主题栏目的自动归类(归栏)处理取得77.25%的F测度值,可以针对短小文本以及训练文本数量有限的情况下开展有效的文本自动分类处理。
【关键词】KNN算法 自动归类 栏目 Jensen-Shannon散度 动态k值
【基金】教育部“留学回国人员科研启动基金”项目(教外留司[2009]1341号)的研究成果之一
【所属期刊栏目】图书情报知识
文献传递