基于字频向量的中文文本自动分类系统
2000-12-24分类号:G254
【部门】山西大学成人教育学院!太原030006 山西大学成人教育学院!太原030006
【摘要】本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。
【关键词】文本分类 中文 自动分类 字频向量 映射函数 语料库 汉字
【基金】
【所属期刊栏目】情报学报
文献传递