开放环境科技语料库质量评价研究
2016-05-12分类号:G353.1
【部门】中国科学技术信息研究所
【摘要】[目的/意义]研究开放环境下科技语料库的质量评价问题。[方法/过程]通过整理已有相关研究和理论分析,提出一套具有代表性、规模、正确性、稳定性和开放性5个一级指标的评价指标体系。其中,领域代表性(代表性的二级指标)使用统计量度量,开放性分为多样性和使用量两个二级指标,多样性使用信息熵度量。在4个开放语料库和1个自建语料库上检验统计量和信息熵在实际评价中的表现,并通过数据分析说明这两个指标不具有统计学意义上的相关性。[结果/结论]研究结果可用于图书馆和科技信息服务机构内以科技文献为基础进行语料库建设过程中的评价与质量控制。
【关键词】语料库 质量评价 指标体系
【基金】国家国际科技合作专项项目“面向科技文献的日汉双向实用型机器翻译合作研究”(项目编号:2014DFA11350); 国家自然科学基金项目“面向专利文献的统计机器翻译语境分析”(项目编号:61303152)的成果
【所属期刊栏目】情报理论与实践
文献传递