问答式林业预训练语言模型(ForestBERT)
2024-08-13分类号:TP391.1;S712
【部门】中国林业科学研究院资源信息研究所国家林业和草原局林业遥感与信息技术重点实验室 北京林业大学林学院 美国夏威夷大学
【摘要】【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及模型标注数据耗时费力等问题,研究利用大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。随后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题的共2 280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT种通用领域的中文预训练语言模型以及本文构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为了探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题的数据集对所有模型进行微调。此外,将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观地展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升了1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升了3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现最差的法律法规也达到82.32%。在文献抽取问答任务中,ForestBERT相比BERT提供了更准确、全面的答案。【结论】采用继续预训练的方式来增强通用领域预训练语言模型的林业专业知识,可以有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供了一种新思路。
【关键词】林业文本 BERT 预训练语言模型 特定领域预训练 抽取式问答任务 自然语言处理
【基金】国家重点研发计划项目(2022YFE0128100)
【所属期刊栏目】林业科学
文献传递