标题
  • 标题
  • 作者
  • 关键词

Web文本分类技术研究现状述评

2008-05-10分类号:G254.11

【作者】高淑琴  
【部门】江苏徐州师范大学图书馆 徐州  221116
【摘要】本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。
【关键词】Web文本分类  数据挖掘  机器学习
【基金】
【所属期刊栏目】图书情报知识
文献传递