基于序列比对算法的中文文本相似度计算研究

2021-07-01分类号：TP391.1

【作者】赵登鹏熊回香田丰收李昕然

【部门】华中师范大学信息管理学院高寻真源教育科技有限公司技术研发部

【摘要】[目的/意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度。[结果/结论]实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。

【关键词】CRF 模型词性标注 Word2Vec 序列比对局部比对文本相似度

【基金】国家社会科学基金项目“融合知识图谱和深度学习的在线学术资源挖掘与推荐研究”(项目编号:19BTQ005)研究成果之一

【所属期刊栏目】图书情报工作

文献传递