一个中文文本自动分类数学模型

1999-02-24分类号：G254-39

【作者】曹素青曾伏虎曹焕光

【部门】山西大学

【摘要】本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合（ＬｉｎｅａｒＬｅａｓｔＳｑｕａｒｅＦｉｔ，ＬＬＳＦ）技术建立文本分类器模型，通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习，实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数，并用该函数对测试文本进行分类。

【关键词】中文文本自动分类字频向量基于实例的映射函数

【基金】

【所属期刊栏目】情报学报

文献传递