基于数字指纹的文献相似度检测研究
2013-08-05分类号:TP391.1
【部门】山东理工大学科技信息研究所
【摘要】针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。
【关键词】数字指纹 抄袭检验 最大熵原理
【基金】国家社会科学基金项目“学术文献‘意抄’检测研究”(项目编号:12CTQ032); 山东省自然科学基金项目“大规模学术文献并行处理与语义分类研究”(项目编号:ZR2011GL025)研究成果之一
【所属期刊栏目】图书情报工作
文献传递