标题
  • 标题
  • 作者
  • 关键词

基于语义边界增强的司法命名实体识别

2024-03-19分类号:TP391.1;D926

【作者】张天宇   孙媛媛   杜文玉   邢铁军   林鸿飞   杨亮
【部门】大连理工大学计算机学院  最高人民检察院检察技术信息研究中心  东软集团股份有限公司  
【摘要】法律文书命名实体识别是智慧司法的关键任务。现有的序列标注模型仅关注字符信息,导致在法律文书命名实体识别任务中无法获得语义和词语的上下文信息,且无法对实体的边界进行限制。因此,该文提出了一个融合外部信息并对边界限制的司法命名实体识别模型(semantic and boundary enhance named entity recognition, SBENER)。该模型收集了40万条盗窃罪法律文书,首先,预训练模型,将获得的司法盗窃罪词向量作为输入模型的外部信息;其次,设计Adapter,将司法盗窃罪的信息融入字符序列以增强语义特征;最后,使用边界指针网络对实体边界进行限制,解决了序列标注模型丢失词语信息及缺少边界限制的问题。该模型在CAILIE 1.0数据集和LegalC orpus数据集上进行实验,结果表明, SBENER模型在2个数据集上的F1值(F1-score)分别达88.70%和87.67%,比其他基线模型取得了更好的效果。SBENER模型能够提升司法领域命名实体识别的效果。
【关键词】法律文书  外部法律信息  实体边界  命名实体识别
【基金】国家重点研发计划项目(2022YFC3301801);; 中央高校基本科研业务费资助项目(DUT22ZD205)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递