标题
  • 标题
  • 作者
  • 关键词

基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究

2020-04-24分类号:TP391.1;TP18

【作者】吴俊  程垚  郝瀚  艾力亚尔·艾则孜  刘菲雪  苏亦坡  
【部门】北京邮电大学经济管理学院  深圳暴风智能科技有限公司  
【摘要】专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。
【关键词】BERT  BiLSTM  CRF  专业术语抽取
【基金】国家重点研发计划项目“基于模式创新的科技咨询服务平台研发与应用示范”(2018YFB1403600);; 北京市社会科学基金一般项目“基于大数据的北京市共享单车产业监测与发展趋势研究”(17YJB018)
【所属期刊栏目】情报学报
文献传递