标题
  • 标题
  • 作者
  • 关键词

基于句法树节点嵌入的作者识别方法

2023-05-24分类号:TP391.1

【作者】张洋  江铭虎  
【部门】清华大学人文学院中文系计算语言学实验室  
【摘要】作者识别是通过分析未知文本的写作风格推断作者归属的交叉学科。现有的研究多基于字符和词汇特征,而句法关联信息在研究中鲜有涉及。该文提出了基于句法树节点嵌入的作者识别方法,将句法树的节点表示成其所有依存弧对应的嵌入之和,把依存关系信息引入深度学习模型中。然后构建句法注意力网络,并通过该网络得到句法感知向量。该向量同时融合了依存关系、词性以及单词等信息。接着通过句子注意力网络得到句子的表示,最后通过分类器进行分类。在3个英文数据集的实验中,该文方法的性能位列第2或3位。更重要的是,依存句法组合的引入为模型的解释提供了更多的方向。
【关键词】作者识别  句法树节点  依存关系  注意力机制
【基金】国家自然科学基金重点项目(62036001)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递