基于两字词簇的汉语快速自动分词算法
1998-10-24分类号:G254.0
【部门】北京邮电大学人工智能实验室 北方交通大学
【摘要】本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现
【关键词】自然语言处理 分词算法 切分歧义
【基金】
【所属期刊栏目】情报学报
文献传递