基于深度学习的先秦典籍问句自动分类研究
2018-11-24分类号:TP391.1;TP18
【部门】南京农业大学信息科学技术学院 南京理工大学经济管理学院 南京师范大学文学院
【摘要】近年来,自动问答系统已成为机器学习、信息检索和自然语言处理领域的研究热点。问句分类作为问答系统要处理的第一步,其分类结果的好坏直接影响问答系统的质量,但目前大部分问句分类研究集中在现代汉语领域,针对古文相关内容的问句分类研究相对较少。本文从问句分类的概念出发,构建了古文文献问句分类体系,然后利用TF-IDF提取类别特征词,先后利用支持向量机、条件随机场、深度学习模型完成针对先秦10部典籍的问句自动分类实验。结果表明,3种分类模型中,使用Bi-LSTM模型分类效果最好,在本文提出的7种类别上,达到调和平均值94.78%,具有较强的推广和应用价值。
【关键词】先秦典籍 数字人文 问句分类 特征提取 深度学习
【基金】国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(15ZDB127);; 国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(71673143)
【所属期刊栏目】情报学报
文献传递