大规模汉语语料库中任意n的n-gram统计算法及知识获取方法
1997-02-24分类号:TP391.1
【部门】哈尔滨工业大学计算机科学与工程系
【摘要】本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
【关键词】n元语法 统计 信息熵 知识获取
【基金】
【所属期刊栏目】情报学报
文献传递