基于词形的汉语文本切分方法

1999-06-24分类号：G354.4

【作者】付国宏王晓龙

【部门】哈尔滨工业大学计算机科学与工程系

【摘要】本文在分析汉语分词一般模型基础上，引入词形概率、词整合系数和词形网格等概念，提出了一个基于词形的汉语文本切分模型，并实现了一个反向动态规划和正向栈解码相结合的二次扫描的汉语文本切分算法。由于引入了词形概率、词整合系数，本模型不仅反映了词形统计构词规律，而且在一定程度上体现了长词优先的切分原则。初步测试表明，本方法的切分准确率和消歧率分别可达９９６％和９３４４％。

【关键词】汉语分词词形概率整合系数词形网格

【基金】国家863项目资助

【所属期刊栏目】情报学报

文献传递