标题
  • 标题
  • 作者
  • 关键词

基于深度学习的先秦典籍问句自动分类研究

2018-11-24分类号:TP391.1;TP18

【作者】王东波  高瑞卿  沈思  李斌  
【部门】南京农业大学信息科学技术学院  南京理工大学经济管理学院  南京师范大学文学院  
【摘要】近年来,自动问答系统已成为机器学习、信息检索和自然语言处理领域的研究热点。问句分类作为问答系统要处理的第一步,其分类结果的好坏直接影响问答系统的质量,但目前大部分问句分类研究集中在现代汉语领域,针对古文相关内容的问句分类研究相对较少。本文从问句分类的概念出发,构建了古文文献问句分类体系,然后利用TF-IDF提取类别特征词,先后利用支持向量机、条件随机场、深度学习模型完成针对先秦10部典籍的问句自动分类实验。结果表明,3种分类模型中,使用Bi-LSTM模型分类效果最好,在本文提出的7种类别上,达到调和平均值94.78%,具有较强的推广和应用价值。
【关键词】先秦典籍  数字人文  问句分类  特征提取  深度学习
【基金】国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(15ZDB127);; 国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(71673143)
【所属期刊栏目】情报学报
文献传递