基于深度学习的领域本体概念自动获取方法研究
2019-10-28分类号:TP391.1;TP18
【部门】中国科学院西北生态环境资源研究院文献情报中心 中国科学院兰州文献情报中心 中国科学院大学
【摘要】[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。
【关键词】深度学习 领域本体 概念自动获取 词嵌入 自注意力
【基金】中国科学院兰州文献情报中心2018年主任基金项目“基于深度学习的领域本体自动构建方法研究”(项目编号:Y8AJ012005);; 中国科学院2019年西部之光项目“开放学术资源的情景化组织与服务研究”(项目编号:Y9AX011001)的成果
【所属期刊栏目】情报理论与实践
文献传递