基于生成式大语言模型的文献资源自动分类研究

2024-09-10分类号：TP18;TP391.1;G254.1

【作者】罗鹏程王继民聂磊

【部门】北京大学图书馆北京大学信息管理系北京外国语大学区域与全球治理高等研究院

【摘要】[目的/意义]探索有效提高文献资源自动层次分类和跨语言分类效果的方法。[方法/过程]将文献资源分类视为分类号生成任务，利用图书馆编目数据构造训练集和测试集，基于ChatGLM 3、Llama 2等大语言模型在训练集上进行模型的高效微调，并在中英文测试集上分析模型的分类效果。[结果/结论]在不同的输出格式中，微调大语言模型使其直接输出分类号，可以获得最优的分类效果；随着训练样本数量的增加，微调后的大语言模型分类效果不断提升；基于22000个样本微调的大语言模型在中图法一级类目和完整分类号的准确率分别可达0.8848、0.5076，优于通用大语言模型；在中文文献上训练的大语言模型可以有效地分类英文文献，分类效果仅比中文文献略低；大语言模型生成的分类号中有少量不是有效的中图分类号。

【关键词】大语言模型自动分类文献资源层次分类跨语言分类

【基金】国家社会科学基金项目“面向多语种社会科学数据的线索发现方法研究”的成果，项目编号：22CTQ025

【所属期刊栏目】情报理论与实践

文献传递