标题
  • 标题
  • 作者
  • 关键词

基于主题标签和CRF的中文微博命名实体识别

2018-06-12分类号:TP391.1

【作者】朱颢东  杨立志  丁温雪  冯嘉美  
【部门】郑州轻工业学院计算机与通信工程学院  
【摘要】近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields,CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.
【关键词】命名实体  中文微博  主题标签  条件随机场
【基金】河南省科技计划项目(152102210149,152102210357);; 河南省高等学校青年骨干教师资助计划项目(2014GGJS-084);; 河南省高等学校重点科研项目(16A520030);; 郑州轻工业学院校级青年骨干教师培养对象资助计划项目(XGGJS02);郑州轻工业学院博士科研基金资助项目(2010BSJJ038)
【所属期刊栏目】华中师范大学学报(自然科学版)
文献传递