标题
  • 标题
  • 作者
  • 关键词

理论术语抽取的深度学习模型及自训练算法研究

2018-09-24分类号:TP181

【作者】赵洪  王芳  
【部门】南开大学商学院信息资源管理系  
【摘要】理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。
【关键词】理论术语抽取  深度学习  循环神经网络  Bi-LSTM-CRF  自训练
【基金】国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(17ZDA291);国家社会科学基金重大项目“我国网络社会治理研究”(14ZDA063)
【所属期刊栏目】情报学报
文献传递