大语言模型下古诗笺注知识库的构建与应用

2024-09-05分类号：TP391.1;TP18

【作者】李佳斌魏庭新曲维光李斌冯敏萱王东波

【部门】南京师范大学文学院南京师范大学国际文化教育学院南京师范大学计算机与电子信息学院南京农业大学信息管理学院

【摘要】古诗中典故、意象、专名等具有高语义复杂度的组块桎梏大众对古诗的语义理解。为此，文章对古诗中的复杂语义组块进行梳理并分类。借助大语言模型的文本处理与信息抽取能力，对搜集到的各类词典知识进行整合处理，构建用于古诗笺注的知识库，并在古诗自动笺注和翻译任务中进行验证与应用。实验结果显示，构建的笺注知识库在古诗中五个关键组块的笺注任务上，宏平均F1值达93.90%，优于现有的笺注方案。利用知识库再次预训练得到的古诗领域语言模型AnnoKB＿GLM，在古诗机器翻译任务上的性能超越现有现代汉语通用大语言模型和古籍文本基座模型，验证了该笺注知识库的实用价值。

【关键词】古诗笺注知识库构建大语言模型

【基金】国家社会科学基金重大项目“汉语诗歌韵律的历史—空间嬗变、脑认知机制与数据库建设研究”（项目号：21&ZD288）;; 江苏省研究生科研与实践创新计划项目“面向诗歌人文及自动诗歌生成任务的古诗词语料库建设”（项目编号：KYCX22＿1460）研究成果

【所属期刊栏目】图书馆论坛

文献传递