基于复合加权LDA模型的书目信息分类方法研究
2017-04-24分类号:TP391.1
【部门】武汉大学信息管理学院
【摘要】以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加权策略,在此基础上构建复合加权策略,使获取的特征词集既不向高频词倾斜,也更能代表书目信息的所属类别。将复合加权策略融合于LDA、提出一种基于复合加权LDA的书目信息分类方法。使用公开和自建的书目信息语料进行对比实验,验证和分析复合加权策略的有效性,实验显示本文提出的复合加权LDA分类方法的
【关键词】文本分类 LDA模型 特征加权 书目信息 文本体例结构
【基金】国家社会科学基金项目“多种类型文本数字资源自动分类研究”(15BTQ066)
【所属期刊栏目】情报学报
文献传递