基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究
2024-05-24分类号:G255.1
【部门】南京农业大学信息管理学院 贵州大学贵州省大数据产业发展应用研究院 武汉大学国家网络安全学院 贵州财经大学信息学院
【摘要】以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking, word, pattern, and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。
【关键词】多维特征融合 古籍文本 主题分类 SWPF2vec DJ-TextRCNN
【基金】国家社会科学基金重大项目“先秦诸子典籍知识库建设及词典编纂”(22&ZD262);; 贵州省科技厅基础项目“基于大数据及图像识别的水族文献及濒危水书抢救性整理研究”(黔科合基础[2020] 1Y279)
【所属期刊栏目】情报学报
文献传递