标题
  • 标题
  • 作者
  • 关键词

多神经网络协作的军事领域命名实体识别

2019-12-18分类号:E91;TP391.1

【作者】尹学振  赵慧  赵俊保  姚婉薇  黄泽林  
【部门】华东师范大学软件工程学院  华东师范大学上海市高可信计算重点实验室  北京遥感信息研究所  
【摘要】互联网公开数据蕴含着大量高价值的军事情报,成为获取开源军事情报的重要数据源之一。军事领域命名实体识别是进行军事领域信息提取、问答系统、知识图谱等工作的基础性关键任务。相比较于其他领域的命名实体,军事领域命名实体边界模糊,界定困难;互联网媒体中军事术语表达不规范,随意性的简化表达现象较普遍;现阶段面向军事领域的公开语料鲜见。该文提出一种考虑实体模糊边界的标注策略,结合领域专家知识,构建了基于微博数据的军事语料集MilitaryCorpus;提出一种多神经网络协作的军事领域命名实体识别模型,该模型通过基于Transformer的双向编码器(bidirectional encoder representations from transformers, BERT)的字向量表达层获得字级别的特征,通过双向长短时记忆神经网络(bi-directional long short-term memory, BiLSTM)层抽取上下文特征形成特征矩阵,最后由条件随机场层(conditional random field, CRF)生成最优标签序列。实验结果表明:相较于基于CRF的实体识别模型,应用该文提出的BERT-BiLSTM-CRF模型召回率提高28.48%,F值提高18.65%;相较于基于BiLSTM-CRF的实体识别模型,该文模型召回率提高13.91%,F值提高8.69%;相较于基于CNN (convolutional neural networks)-BiLSTM-CRF的实体识别模型,该文模型召回率提高7.08%,F值提高5.15%。
【关键词】军事命名实体识别  双向偏码器(BERT)  模糊边界  多神经网络
【基金】国家自然科学基金资助项目(61702190)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递