基于神经网络语言模型的作者身份验证

2019-10-24分类号：TP391.1;TP183

【作者】郭旭祁瑞华

【部门】大连外国语大学语言智能研究中心

【摘要】[目的/意义]为了进一步降低作者身份验证中训练语料的字符数和测试样本的颗粒度,满足更多情报分析工作实际应用的需要。[方法/过程]文章提出了一种基于神经网络语言模型的作者身份验证方法。该方法在用某一作者的语料训练出的语言模型,将给予该作者书写的其他语料更高概率的指导思想下提出。[结果/结论]实验结果表明,相较于传统的作者身份验证方法,文章提出的方法可以使用更少的训练语料,并且在小于传统方法一个数量级的测试样本颗粒度上,仍能获得略高于传统方法的AUC值,最终使得可有效验证的测试样本的颗粒度降到50。[局限]在跨体裁方面效果仍有待提高。

【关键词】情报分析作者身份验证神经网络语言模型新奇检测

【基金】国家社会科学基金项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号:15BYY028);; 大连外国语大学研究创新团队“计算语言学与人工智能”(项目编号:2016CXTD06);; 辽宁省自然科学基金项目“神经网络语言模型在作者身份识别中的应用研究”(项目编号:2019-ZD-0513)的成果之一

【所属期刊栏目】情报理论与实践

文献传递