大规模汉语语料库中任意n的n-gram统计算法及知识获取方法

1997-02-24分类号：TP391.1

【作者】张民李生赵铁军

【部门】哈尔滨工业大学计算机科学与工程系

【摘要】本文提出并实现了一种大规模汉语语料库中字、词级任意ｎ的ｎ－ｇｒａｍ统计算法，本算法可以一次性统计出所有不大于任意ｎ（本文ｎ取为２５６）的字、词级ｎ－ｇｒａｍ，可将传统ｎ－ｇｒａｍ统计时的指数空间开销变为线性的，且与所统计的元数无关。基于这种ｎ－ｇｒａｍ的统计，本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中

【关键词】n元语法统计信息熵知识获取

【基金】

【所属期刊栏目】情报学报

文献传递