基于两字词簇的汉语快速自动分词算法

1998-10-24分类号：G254.0

【作者】郭祥昊钟义信杨丽

【部门】北京邮电大学人工智能实验室北方交通大学

【摘要】本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占７５％的统计规律，提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理，也就是把长词的扫描范围限定在词汇量很小的词簇内，从而不仅提高了分词速度，而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外，本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现

【关键词】自然语言处理分词算法切分歧义

【基金】

【所属期刊栏目】情报学报

文献传递