基于Hadoop的并行化命名实体识别模型研究
2022-02-28分类号:TP391.1
【部门】深圳市检验检疫科学研究院 深圳海关食品检验检疫技术中心 深圳海关信息中心
【摘要】针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型。提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点。与已有的BERT-BAC模型相比,在确保较高F_1值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实体识别时间分别缩短60.36%、39.43%,具有更广泛的实用性。
【关键词】命名实体识别 数据分块 Hadoop 并行化 局部注意力
【基金】国家重点研发计划课题(2017YFC1601001,2018YFC1603601)
【所属期刊栏目】实验技术与管理
文献传递