基于Blending集成学习的专题数据库文本资源分类方法研究与实现
2022-05-06分类号:G250.74
【部门】南京中医药大学卫生经济管理学院 南京大学信息管理学院
【摘要】[目的/意义]针对专题数据库文本资源主题相近、语义相似度高、知识聚敛度高等特点,提出一种基于预训练模型与Blending集成学习策略的专题数据库文本分类模型。[方法/过程]选择BERT、ERNIE、RoBERTa、ALBERT、XLNet预训练模型提取专题文本的多层次特征,基于Blending集成学习方法组合预训练模型,爬取“新华丝路”专题数据库相关文本资源对集成学习模型的有效性与优越性进行验证。[结果/结论]结果显示,与单模型、传统集成学习方法相比,在专题数据库服务场景下,基于Blending集成学习的文本分类模型具有较高的分类性能。
【关键词】专题文本分类 集成学习 专题数据库 预训练模型
【基金】国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”的研究成果之一,项目编号:18ZDA326
【所属期刊栏目】情报理论与实践
文献传递