基于主题语义扩展的混合类型数字资源分类研究
2017-12-27分类号:G254
【部门】武汉大学信息管理学院
【摘要】为满足数字图书馆各种类型数字化资源统一分类组织的需要,文章着重对数字图书馆中多种类型文献混合分类的可行性进行探索与分析。引入语义主题模型构建方法,结合外部知识库Wikipedia进行语义扩展,构建一种基于主题语义扩展的混合类型文献自动分类方法。研究发现:在多类型文献混合分类中,网页与非学术性期刊文献、图书与学术性期刊文献之间具有较高的亲和力,可互相作为分类材料中的训练集并达到较高分类性能;不同分类算法针对多种类型文献混合分类具有不同的可学习能力和适应性,贝叶斯算法、最大熵模型比支持向量机更能适应多种类型文
【关键词】主题模型 语义扩展 数字资源 混合分类
【基金】国家社会科学基金项目“多种类型文本数字资源自动分类研究”的成果之一,项目编号:15BTQ066
【所属期刊栏目】情报理论与实践
文献传递