融合ChatGPT数据增强的学术论文语步识别方法研究

2024-09-05分类号：TP391.1;TP18

【作者】许钦亚薛秋红钱力刘会洲刘鲁静

【部门】中国科学院文献情报中心中国科学院大学经济与管理学院信息资源管理系中国电子科技集团公司信息科学研究院国家新闻出版署学术期刊新型出版与知识服务重点实验室中国科学院过程工程研究所中国科学院深圳先进技术研究院碳中和技术研究所

【摘要】[目的/意义]学术论文的语步结构对读者深入理解内容和快速定位关键信息具有重要作用，本文旨在研究全文语步识别方法，以快速获取学术论文的核心内容，推动智能化的语义检索。[方法/过程]在当前语步识别方法方面的相关研究的基础上，提出一种融合ChatGPT数据增强和预训练语言模型的细粒度语步识别模型SciBERT-HAMI模型。该模型利用原始文本，通过ChatGPT大模型进行语料扩充，以增加训练数据的多样性和数量；使用分层神经网络模型学习论文的“词—句—章节”语义特征表示，以捕捉不同层次的语义信息；将SciBERT的词嵌入表示作为输入，并使用分层神经网络模型与FocalLoss损失函数进行细粒度语步识别模型训练。[结果/结论 ]结合ChatGPT数据增强策略，SciBERT-HAMI-DA模型在CoreSC和AZ数据集的F1值分别为0.731和0.741，对比实验表明，所提模型在论文全文细粒度语步识别任务上性能得到有效提升，并通过消融实验验证数据增强和模型组件的有效性。融合预训练语言模型与ChatGPT数据增强，全文语步识别模型的预测效果得到有效提升，有助于推动学术研究的自动化与智能化。

【关键词】语步识别 ChatGPT 数据增强 SciBERT

【基金】国家社会科学基金重大项目“大数据驱动的科技文献语义评价体系研究”（项目编号：21&ZD329）研究成果之一~~

【所属期刊栏目】图书情报工作

文献传递