基于支持向量机的先秦诸子典籍自动分类研究
2017-09-21分类号:TP391.1
【部门】南京农业大学信息科学技术学院 南京农业大学领域知识关联研究中心
【摘要】[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。
【关键词】先秦典籍 支持向量机 自动分类 古文信息处理
【基金】国家社科基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号:15ZDB127);; 南京农业大学人文社科基金项目(项目编号:SKPT2016001);; 国家社会科学基金青年项目“哈佛燕京学社汉学引得丛刊研究”(项目编号:12CTQ019)研究成果之一
【所属期刊栏目】图书情报工作
文献传递