WWW中文信息自动分类方法研究
2002-10-24分类号:G254.1
【部门】山西大学计算机科学系 山西大学计算机科学系 太原030006 太原030006
【摘要】本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。
【关键词】WWW中文信息自动分类 文本自动分类 类别词
【基金】
【所属期刊栏目】情报学报
文献传递