标题
  • 标题
  • 作者
  • 关键词

文本增强与预训练语言模型在网络问政留言分类中的集成对比研究

2021-07-05分类号:D63;TP391.1

【作者】施国良  陈宇奇  
【部门】河海大学商学院  
【摘要】[目的/意义]政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程]设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论]实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。
【关键词】问政平台  文本分类  文本增强  BERT模型
【基金】中央高校基本业务费项目“基于图数据库的水利知识图谱关键技术研究”(项目编号:B200207036)研究成果之一
【所属期刊栏目】图书情报工作
文献传递