科技文献研究问题句识别方法研究

2023-05-05分类号：G255.51;TP391.1

【作者】李雪思张智雄刘熠王宇飞

【部门】中国科学院文献情报中心中国科学院大学经济与管理学院信息资源管理系

【摘要】[目的 /意义]科技文献是记录科学问题提出和求解过程的重要载体，其中的研究问题句对于揭示科学问题具体内容、把握文章的研究主题具有重要作用。自动识别科技文献研究问题句是科技文本挖掘中一个重要的任务。[方法 /过程]针对研究问题句自动识别，首先提出一种基于迭代的半自动标注策略，结合模型预判的置信度进行人工校对，对研究问题句数据进行标注。在此基础上，采用BERT-CNN的架构设计句子分类模型，该模型引入BERT生成文本向量，并使用CNN提取文本特征，然后通过实验与基准模型进行对比验证了模型的有效性。[结果 /结论 ]基于提出的标注策略构建了大规模规范可用的数据集，经过人工检验准确率达到95%；并在此基础上设计了基于BERT-CNN架构的识别模型，在研究问题句识别任务中F1值达到94.8%。本文的研究为科技文献研究问题的挖掘与分析提供了高质量的数据支持和有效的模型方法。

【关键词】研究问题句自动识别预训练语言模型深度学习文本挖掘

【基金】国家科技图书文献中心（NSTL）“下一代开放知识服务平台关键技术优化集成与系统研发—科研综述智能生成工具优化与集成”（项目编号：2022XM28）研究成果之一

【所属期刊栏目】图书情报工作

文献传递