基于BERT模型的中文期刊文献自动分类实践研究
2022-05-15分类号:G254.1
【部门】上海图书馆
【摘要】Google AI团队发布的BERT模型在多项自然语言处理任务中取得了研究成果,但在中文文献自动分类领域尚有待探索。本文旨在探索BERT_(base)中文基础模型在中文社科、科技期刊文献分类上的实际分类效果,指出模型在实际应用中存在的问题并提出解决方法。本文选取R大类(医药、卫生)、TG大类(金属学与金属工艺)、F大类(经济)、J大类(艺术)共1 745 000条数据作为训练语料,并以另外9 610条数据作为测试样本,利用BERT模型分别对社科、科技期刊文献进行分类研究。测试结果表明BERT模型在社科文献中的四级准确率为76.95%,科技文献为68.55%。之后引入惩罚策略,为实际工作中免检数据阈值的设定提供参考。BERT_(base)模型在《全国报刊索引》实际分类标引工作中有一定可行性,基本满足当前网络环境下中文文献自动分类的需求。
【关键词】BERT模型 深度学习 文献分类 《中国图书馆分类法》
【基金】上海图书馆青年扬帆计划专项“基于深度学习的文献数字资源智能分类标引研究与应用”的研究成果之一
【所属期刊栏目】图书馆杂志
文献传递