标题
  • 标题
  • 作者
  • 关键词

学术论断句标注与识别方法探索

2022-07-24分类号:G353.1

【作者】徐健  郭语凡  喻雪寒  黄雨馨  杨婷婷  王唯一  刘政  
【部门】南京农业大学信息管理学院  南京农业大学经济管理学院农林经济管理博士后流动站  
【摘要】学术文本中的论断句包含了学者对研究问题的看法和判断,对其进行识别有助于组织和挖掘其中蕴含的学术观点,以辅助学者更高效地开展科研活动。在对前人研究进行归纳的基础上,提出论断句判断的3个充分条件和3个必要条件,从肯定和否定角度构建论断句判定标准。开发论断句标注系统,选择信息资源管理领域部分论文,开展摘要和全文层面论断句的标注实验。评测最小序列优化、支持向量机、朴素贝叶斯、决策树、k近邻、BERT (bidirectional encoder representations from transformers)+FC (full connection)、BERT+BiLSTM (bidirectional long short-term memory)分类器对论断句的识别效果。研究发现:(1)使用本文提出的判断标准,标注者在摘要和全文层面对学术文本中论断句和非论断句的标注一致性较高;(2)仅使用文本特征情况下,BERT+BiLSTM算法识别效果最好,准确率、召回率和F_1值等指标均大于90%;(3)论断句和非论断句在长度、段内位置、文内位置和TextRank权重上频率分布均存在差异;(4)在摘要层面,使用序列最小优化算法,加入长度特征后,分类器识别效果提升0.5%;在全文层面,使用支持向量机分类器,加入长度、段内相对位置、文内相对位置特征后,分类器识别效果在F_1值上取得了2%的提升。
【关键词】学术文本  论断句  文本特征  机器学习  识别
【基金】国家社会科学基金项目“领域学术观点库构建理论与方法研究”(20CTQ025)
【所属期刊栏目】情报学报
文献传递