基于混合深度学习的中文医学实体抽取研究
2022-08-01分类号:R-05;TP18;TP391.1
【部门】南京邮电大学管理学院 江苏省数据工程与知识服务重点实验室
【摘要】[目的/意义]医学实体抽取是医疗健康领域信息组织和知识挖掘的关键环节。针对中文医学实体专业性强、命名规则复杂和抽取难度大的现状,探究如何利用多种深度学习方法混合协作以提升中文医学实体抽取的准确性。[方法/过程]首.先在深度学习模型BiLSTM-CRF基础上,引入语言模型BERT和迭代膨胀卷积神经网络IDCNN,增强文本语义表征能力和局部特征捕获能力;接着利用BERT预训练进行外部医学语料资源的知识迁移,实现多语义特征融合;然后引入自注意力机制捕获全局上下文重要信息,并加入Highway优化深层网络训练,解决网络加深导致的精度下降问题,最终提出MF-HDL(Multi Feature-Hybrid Deep Learning)模型。[结果/结论]MF-HDL模型在中文糖尿病数据集上效果显著,其F1值较基准模型IDCNN-CRF和BiLSTM-CRF分别提升18.42%和17.18%,此方法在中文医学实体抽取任务上表现优异。
【关键词】混合深度学习 医学实体抽取 BERT 注意力 Highway
【基金】国家社会科学基金项目“大数据环境下健康领域实体语义挖掘研究”(项目编号:17CTQ022);; 江苏省研究生科研创新计划基金项目“基于深度学习的医学文献实体识别研究”(项目编号:KYCX21_0844)研究成果之一
【所属期刊栏目】图书情报工作
文献传递