标题
  • 标题
  • 作者
  • 关键词

ChpoBERT:面向中文政策文本的预训练模型

2023-12-24分类号:G353.1

【作者】沈思   陈猛   冯暑阳   许乾坤   刘江峰   王飞   王东波
【部门】南京理工大学经济管理学院  南京农业大学信息管理学院  江苏省科技情报研究所  
【摘要】随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。
【关键词】BERT  预训练模型  政策文本  深度学习  困惑度
【基金】国家自然科学基金面上项目“基于深度学习的学术全文本知识图谱构建及检索研究”(71974094)
【所属期刊栏目】情报学报
文献传递