标题
  • 标题
  • 作者
  • 关键词

基于Hadoop的并行化命名实体识别模型研究

2022-02-28分类号:TP391.1

【作者】蔡伊娜  包先雨  林燕奎  彭锦学  彭智彬  林泳奇  李俊霖  郭云  
【部门】深圳市检验检疫科学研究院  深圳海关食品检验检疫技术中心  深圳海关信息中心  
【摘要】针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型。提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点。与已有的BERT-BAC模型相比,在确保较高F_1值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实体识别时间分别缩短60.36%、39.43%,具有更广泛的实用性。
【关键词】命名实体识别  数据分块  Hadoop  并行化  局部注意力
【基金】国家重点研发计划课题(2017YFC1601001,2018YFC1603601)
【所属期刊栏目】实验技术与管理
文献传递