学术论文子句语义类型自动标注技术研究
2021-06-24分类号:G254;TP391.1
【部门】北京大学信息管理系 清华大学经济管理学院
【摘要】学术论文语义结构的解析可以广泛应用于信息抽取、论文检索等多个问题。本文通过机器学习的方法,自动标注论文全文中每个子句的语义类型,以实现对论文语义结构的识别。本文使用了论文的宏观篇章结构,以及每个子句的语法、词汇信息作为特征,训练了支持向量机、条件随机场、随机森林、梯度提升分类器和随机梯度下降分类器5种机器学习模型,并将其中效果较好的支持向量机、条件随机场、梯度提升分类器3个模型进行集成,最终得到适用于学术论文全文本子句语义类型标注的集成模型。实验证明,无论在论文全文还是仅包含"结果"的章节中,与对照模型相比,集成模型的子句语义类型标注准确度和F-score均有提升。此外,本文通过主题聚类实验验证了集成模型在识别论文主题等文本挖掘领域能实现较好的效果。
【关键词】学术论文 语义标注 文本分类 机器学习 聚类
【基金】国家社会科学基金一般项目“基于全文本分析的数据科学范式及其演化研究”(20BTQ054)
【所属期刊栏目】情报学报
文献传递