标题
  • 标题
  • 作者
  • 关键词

有限样本下的科技文献语步识别方法探讨

2024-02-05分类号:TP391.1;G254

【作者】张鑫   许海云   杨宁   方肖   赵爽
【部门】中国科学院成都文献情报中心  中国科学院大学信息资源管理系  山东理工大学管理学院  
【摘要】[目的 /意义]科技文献语步识别是从非结构化的文献中抽取出研究目的、对象、方法、结果、结论等语义片段,针对摘要语步识别实际应用中常出现的高质量标注样本数量较有限、深度识别模型可解释性差等问题开展研究。[方法 /过程]在语步识别中引入提示学习范式,设计对应提示模板和同义词表达器,采用局部线性代理方式生成模型解释,构建可解释的深度学习识别模型,并在生物领域和计算机领域两个数据集随机抽取部分数据中进行模拟实证研究。[结果 /结论 ]基于大模型提示学习的范式在语步识别任务上以较少训练代价的取得比精调小模型更高的精度,在Pub Med三个子数据集上训练后,预测精度分别提高2.5%,4.1%和3.9%。结合准确率和解释结果来看,“方法”“结果”语步识别效果较好(F1值约90%),“背景”“对象”语步相对差些(F1值不到70%)。基于提示学习的方式能够以更快捷高效的方式使用预训练语言模型,获得准确性高、可解释性好的识别模型。
【关键词】小样本  文本增强  提示学习  模型解释
【基金】四川省社会科学规划项目“专利成果转移转化潜力评价与实证研究”(项目编号:SC22C002);; 中国科学院文献情报能力建设专项“‘智慧数据+AI’支撑科学实验操作规程的智能生成研究”(项目编号:E2C0003009)研究成果之一~~
【所属期刊栏目】图书情报工作
文献传递