基于朴素贝叶斯与BP网络神经分类方法的《红楼梦》文本特征差异研究
2018-07-10分类号:I207.411;TP18
【部门】兰州财经大学统计学院
【摘要】《红楼梦》的作者问题一直是红学研究的热点。本文运用R语言对《红楼梦》著作进行文本分词和词频统计,从高频词汇和虚字两个研究角度分析《红楼梦》前八十回与后四十回文本特征的差异性。从高频词汇角度,通过制作分组高频词汇频数折线图,分析折线图的波动,初步表明《红楼梦》前八十回和后四十回文本特征存在差异;从虚字角度,通过监督学习方法中的朴素贝叶斯与BP神经网络,以虚字作为文本特征对《红楼梦》一百二十回作分类处理,并计算分类准确率,研究表明《红楼梦》前八十回和后四十回文本特征存在显著的差异。研究结果表明:《红楼梦》前八十回和后四十回作者不是同一个人。
【关键词】文本分析 朴素贝叶斯 BP神经网络 红学
【基金】
【所属期刊栏目】统计与决策
文献传递