标题
  • 标题
  • 作者
  • 关键词

水稻病虫草害与药剂实体关系联合抽取算法

2020-05-18分类号:S435.11;S451;TP391.1

【作者】沈利言  姜海燕  胡滨  谢元澄  
【部门】南京农业大学信息科学技术学院  南京农业大学/国家信息农业工程技术中心  
【摘要】[目的]水稻病虫草害与药剂之间实体和关系的自动抽取,是构建作物系统领域知识图谱的重要基础。本文针对病虫草害防治文本中含有大量实体没有明确边界以及药剂与病虫草害实体之间存在大量多关系的技术问题,设计了一种基于新标注模式的双长短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)网络与注意力机制结合的水稻病虫草害与药剂的实体关系联合抽取算法 (Joint Entity Recongnition And Relation Extraction For Rice Diseases,Pests,Weeds ,JE-DPW)。[方法]该方法在解码层利用BiLSTM网络的前向传播和反向传播,增强了算法对病虫草害防治文本中复杂语义特征的提取;再通过softmax分类器获取字符的类别标签实现实体识别的同时,利用注意力机制判断当前字符与之前字符之间存在的关联关系,实现了实体与多关系的联合抽取。[结果] 利用包含7 380个实体,8 605个关系的病虫草害防治文本数据集训练模型,使用测试集测试后发现:JE-DPW算法在病虫草害与药剂的实体抽取和关系分类任务中的准确率分别为91.3%和76.8%,对无边界实体识别的准确率为88.1%。与BiLSTM实现实体抽取方法相比,准确率高出8.1%。与利用RNN (Recurrent Neural Network)和LSTM(Long Short-Term Memory)分别实现关系分类的方法比较,准确率分别高出了22.6%和19.7%;随着关系数量的增加,JE-DPW算法在关系抽取上的F1值可保持17.4%~20.1%的优势。[结论]本文提出的算法可以有效提升水稻病虫草害防治文本中实体关系联合抽取的准确度,提高作物系统领域知识库的构建速度。
【关键词】病虫草害  实体关系抽取  长短期记忆网络  注意力机制
【基金】国家重点研发计划项目(2016YFD0300607);; 江苏省研究生培养创新工程项目(SJCX18_0198)
【所属期刊栏目】南京农业大学学报
文献传递