基于SciBERT与ChatGPT数据增强的研究流程段落识别
2023-08-16分类号:TP391.1;TP18
【部门】南京理工大学经济管理学院信息管理系
【摘要】[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F_(1)值分别达到了0.9414和0.9409。
【关键词】学术文本 研究流程段落 文本分类 SciBERT ChatGPT数据增强
【基金】国家自然科学基金项目“基于学术文献全文内容的细粒度算法实体抽取与评估研究”的研究成果,项目编号:72074113
【所属期刊栏目】情报理论与实践
文献传递