标题
  • 标题
  • 作者
  • 关键词

融入自注意力机制的社交媒体命名实体识别

2019-01-23分类号:TP391.1

【作者】李明扬  孔芳  
【部门】苏州大学计算机科学与技术学院  
【摘要】相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使用外部知识或者借助联合训练来提升最终的识别性能,但对社交媒体文本不规范导致的对文本自身蕴含特征的挖掘不够这一问题的研究很少。该文着眼于文本自身,提出了一种结合双向长短时记忆和自注意力机制的命名实体识别方法。该方法通过在多个不同子空间捕获上下文相关信息来更好地理解和表示句子结构,充分挖掘文本自身蕴含的特征,并最终提升不规范文本的实体识别性能。在Weibo NER公开语料上进行了多组对比实验,实验结果验证了方法的有效性。结果表明:在不使用外部资源和联合训练的情况下,命名实体识别的F1值达到了58.76%。
【关键词】命名实体识别  中文社交媒体  自注意力机制
【基金】国家自然科学基金资助项目(61472264,61876118);; 人工智能应急项目(61751206);; 国家重点研发计划子课题(2017YFB1002101)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递