标题
  • 标题
  • 作者
  • 关键词

基于多任务学习和多态语义特征的中文疾病名称归一化研究

2021-11-24分类号:R-05;TP391.1

【作者】韩普  张展鹏  张伟  
【部门】南京邮电大学管理学院  江苏省数据工程与知识服务重点实验室  
【摘要】为解决在线文本中存在大量疾病指称的问题,提出了基于多任务学习和多态语义特征的中文疾病名称归一化模型(multi-task attention-dictionary BERT GRU-CNN,MTAD-BERT-GCNN)。首先利用word2vec和Glove生成融合局部和全局的外部语义特征向量;其次将CNN (convolutional neural networks)和BERT (bidirectional encoder representations from transformers)作为基准模型进行对比实验;接着在CNN上引入GRU (gated recurrent unit)、LSTM(long short-term memory)、Bi GRU (bi-directional gated recurrent unit)和Bi LSTM (bi-directional long short-term memory)以提取文本间语义关系;然后,基于多任务学习视角,将上述模型与BERT相结合以捕获静态和动态语义信息;最后,引入医学词典生成注意力权重词典作为辅助任务以调节静态向量,从而进一步提升模型效果。在自建的中文疾病名称归一化数据集ChDND (Chinese disease normalization data)上进行实验。研究结果发现,MTAD-BERT-GCNN模型在Accuracy@10指标上可以达到89.60%的准确率,较基础的词级CNN和字级CNN分别提高了12.96%和5.12%。本研究在中文疾病名称归一化任务中引入了多任务学习思路,从语义向量和模型框架层面进行了优化,在中文医学知识图谱构建、信息抽取和自然语言理解中具有较好的应用价值。
【关键词】疾病名称归一化  有监督学习  多任务学习  卷积神经网络  BERT
【基金】国家社会科学基金项目“大数据环境下健康领域实体语义挖掘研究”(17CTQ022)
【所属期刊栏目】情报学报
文献传递