标题
  • 标题
  • 作者
  • 关键词

基于word2vec和LSTM的句子相似度计算及其在水稻FAQ问答系统中的应用

2018-05-18分类号:S511;TP391.1

【作者】梁敬东  崔丙剑  姜海燕  沈毅  谢元澄  
【部门】南京农业大学信息科学技术学院  南京农业大学国家信息农业工程技术中心  
【摘要】[目的]水稻FAQ(frequently asked question,常问问题集)问答系统对农户在水稻种植过程中遇到的问题进行解答,问句相似度计算是其核心,用来匹配用户问题和FAQ中的问题。针对传统句子相似度算法准确率普遍较低的问题,本研究旨在用深度学习计算问句相似度,以提高系统回答的准确性。[方法]构建一个基于word2vec和LSTM(long-short term memory,长短期记忆)神经网络,包括输入层、嵌入层、LSTM层、全连接层和输出层的句子相似度模型。对水稻FAQ中的3 007个问题进行归类和组合得到32 072个问题对,并标注其相似性作为训练和测试数据。使用基于农业领域语料库训练得到的word2vec模型对训练数据向量化后作为输入,训练句子相似度模型。[结果]在测试集上对模型进行验证,并与基于How Net、基于词向量的余弦距离以及基于word2vec和卷积神经网络(convolutional neural network,CNN)的3种句子相似度算法进行对比。对句子相似度的计算结果进行抽样检查,该模型的计算结果更符合人的直观印象。从准确率和ROC(receiver operating characteristic curve)曲线进行分析,该模型也明显优于其他3种方法,准确率达到了93.1%。[结论]本研究构建的模型显著提升了句子相似度计算的准确率,基于该模型开发的水稻FAQ问答系统,能够准确匹配用户问题和水稻FAQ中的问题,帮助农户更好地解决水稻生产中遇到的问题。
【关键词】水稻  问答系统  常问问题集  词向量  长短期记忆  深度学习
【基金】国家重点研发计划项目(2016YFD0300607);; 中央高校基本科研业务费自主创新重点项目(KYZ201550,KYZ201548)
【所属期刊栏目】南京农业大学学报
文献传递