命名实体识别在数字人文中的应用——基于ETL的实现
2019-12-16分类号:TP391.1
【部门】上海图书馆系统网络中心
【摘要】近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。
【关键词】命名实体识别 关联数据 数字人文 文本标注
【基金】国家社会科学基金项目“面向数字人文研究的图书馆开放数据体系构建与服务模式设计研究”(项目编号:18BTQ027)研究成果
【所属期刊栏目】图书馆论坛
文献传递