基于深度学习的科技文献语义分类研究
2018-05-25分类号:TP391.1;TP181
【部门】华南师范大学经济与管理学院信息管理系
【摘要】[目的/意义]科技文献数量增长迅猛,自动文本分类技术可以提高文献分类效率与准确率。深度学习在自然语言语义分析中效果明显,基于深度学习的语义分析可以对科技文献进行有效分类。[方法/过程]为了进行对比实验,分别对科技文献数据做了去停用词和不去停用词处理,再用Word2vec工具进行词向量训练,使用简单RNN,LSTM和GRU深度学习模型进行分类比较。[结果/结论]实验结果表明,简单RNN,LSTM和GRU均对未去停用词的科技文献分类效果较好;三个深度学习模型中LSTM的分类效果最好,使用简单RNN和LSTM进行科技文献的语义分类时,Adam和SGD优化器对模型的优化效果最好;使用GRU时SGD和Adadelta优化器对模型的优化效果最好。
【关键词】科技文献 文献分类 深度学习 语义分析 停用词处理
【基金】2016年国家社会科学基金项目“基于文本挖掘的科技文献知识发现研究”(项目编号:16BTQ071);; 2016年华南师范大学研究生创新项目“基于深度学习的科技文献挖掘研究”(项目编号:2016wkxm62)的成果
【所属期刊栏目】情报理论与实践
文献传递