基于Stacking集成学习的大规模文本层次分类方法

2020-05-26分类号：TP391.1;TP181

【作者】冉亚鑫韩红旗张运良翁梦娟高雄

【部门】中国科学技术信息研究所富媒体数字出版内容组织与知识服务重点实验室

【摘要】[目的/意义]大规模文本层次分类问题是当前文本分类领域中的研究难点之一。由于数据规模和类别数量巨大，分类难以达到理想的效果。针对该问题，提出基于Stacking集成学习的大规模文本层次分类方法。[方法/过程]该方法使用自上而下方法实现分类，分别采用两类策略来训练高层和低层分类器。训练高层分类器(第一层和第二层)时采用多分类策略，根据高层分类结果设计了一种约束算法来选择合适的低层分类器。训练低层分类器时采用二分类策略，利用Stacking算法训练每个低层类别的基分类器和融合分类器，通过融合分类器预测结果排名选择得分最高的分类标签作为分类结果。[结果/结论]在中文期刊数据集上的实验结果表明，该方法能够有效提升大规模文本层次分类的效果。

【关键词】Stacking算法文本分类层次分类深度学习集成学习

【基金】中国工程科技知识中心建设项目“知识组织体系建设”（项目编号：CKCEST-2020-1-19）;; 中国科学技术信息研究所重点工作项目“多模态知识图谱构建关键技术研究”（项目编号：ZD2020-09）的研究成果之一

【所属期刊栏目】情报理论与实践

文献传递