AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究
2023-04-26分类号:G250.7;TP391.1
【部门】南京农业大学信息管理学院 南京师范大学文学院
【摘要】[目的/意义]诗词创作是数字人文领域自然语言生成研究的重要方向,对古诗词遣词造句的版本争议判断、自动诗词问答等具有一定意义,然而当前尚未出现能够自动生成繁体中文古诗词的预训练模型,已有研究着眼于根据使用者需求创作不同风格的简体古诗词。[方法/过程]文章基于CLM使用繁体《四库全书》无标点语料、繁体中文古诗词语料在gpt2-chinese-cluecorpussmall上进行继续预训练构建SikuGPT2、SikuGPT2-poem模型。采用困惑度、BLEU、专家打分、图灵测试等验证模型性能。[结果/结论]实验显示SikuGPT2-poem模型困惑度较低,生成的诗歌BLUE评分较基准模型低0.053左右,在人工打分中较基准模型平均高1.93分。总体而言,文章提出的模型表现优异且通过图灵测试,提出的古汉语生成式系列模型的预训练语料集尚小。模型在古诗生成方面表现较好,但尚不能满足赋、曲等体裁的需要。
【关键词】四库全书 SikuGPT 预训练语言模型 诗歌生成 数字人文
【基金】国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”的成果,项目编号:21&ZD331
【所属期刊栏目】情报理论与实践
文献传递