标题
  • 标题
  • 作者
  • 关键词

基于多源数据融合的公共文化领域词表构建研究

2022-04-24分类号:TP391.1;G254

【作者】王晓雪  化柏林  
【部门】北京大学软件与微电子学院  北京大学信息管理系  公共文化服务大数据应用文化和旅游部重点实验室  
【摘要】公共文化云发展迅速,公共文化智慧化模式层出不穷,要对公共文化发展的整体现状进行实时的监测扫描与深入的分析挖掘,需要构建领域的主题词表,以增加分析挖掘的准确性以及数据分析结果的可读性。为此,如何基于政策法规、活动报道等文本内容,生成一部能够反映公共文化领域最新最全的词表,是公共文化大数据建设的一项重要内容。本文搜集了公共文化领域政策法律文件和政府公告、各地文化活动数据、学术论文、新闻报刊,通过自动抽取和人工标注获取其中的术语,采用规则方法、K-means、KNN等多种方法对术语分类。这部词典初步收录了公共文化相关的19个大类、约2.8万条词条,后续可继续扩展。
【关键词】公共文化  术语抽取  术语分类  术语词典
【基金】文化和旅游部重点实验室项目“公共文化智慧化模式聚类与动态展示系统研究”(编号:2020008)的研究成果之一
【所属期刊栏目】图书馆杂志
文献传递