标题
  • 标题
  • 作者
  • 关键词

基于知识库的网页自动标引和自动分类系统的设计

2004-01-21分类号:TP393.092

【作者】侯汉清  薛鹏军
【部门】南京农业大学信息管理系  南京农业大学信息管理系 南京  210095   南京  210095
【摘要】针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。
【关键词】网页  自动标引  自动分类  概念语义网络  智能信息处理
【基金】国家社科基金项目“基于知识库的中文信息自动分类;自动标引”(02BTQ012)的研究成果之一。
【所属期刊栏目】大学图书馆学报
文献传递