LDA模型在专利文本分类中的应用
2017-03-15分类号:G306;TP391.1
【部门】江西理工大学信息工程学院
【摘要】对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。
【关键词】LDA 主题模型 专利文本分类 主题相似度
【基金】国家自然科学基金项目“创新网络异质性与企业创新绩效关系研究”(项目编号:71462018);; 江西省研究生创新专项基金资助项目“基于领域知识的LDA主题模型”(项目编号:YC2015-S304)
【所属期刊栏目】现代情报
文献传递