中文文献引文情感语料库构建
2020-01-24分类号:G353.1
【部门】大连理工大学科学学与科技管理研究所暨WISE实验室 大连外国语大学软件学院
【摘要】基于内容的引文情感分析克服了传统基于引用频次的引用同一化问题,是引文内容分析领域一个重要的研究热点。然而引文情感分析依赖于带标注的数据集,目前大规模高质量的引文情感语料资源匮乏,严重制约了该领域的研究。因此,本文在分析引文情感表达方式的基础上提出了一套适用于引文情感表示的标注体系,并详细阐述了语料库建设的技术和方法。采用人机结合的标注策略,借助完善的引文标注系统,构建了规模较大的中文文献的引文情感语料库。统计结果显示,在中文信息处理和科技管理领域情感褒义和贬义总的引用的占比分别为22%和6%,引文情感标注kappa值达到0.852,表明该语料库能够客观地反映作者的情感倾向性,可为论文评价、引文网络分析和情感分析等相关领域的研究提供数据支撑。
【关键词】引文情感分析 一致性检验 标注体系
【基金】国家自然科学基金项目“基于引用极性和评论挖掘的论文综合评价模型研究”(61772103),“面向社交媒体的多语种文本情感分析方法研究”(61806038)
【所属期刊栏目】情报学报
文献传递