标题
  • 标题
  • 作者
  • 关键词

Web页面中文文本主题的自动提取研究

2001-04-24分类号:TP393

【作者】韩客松  王永成  滕伟
【部门】上海交通大学!上海200030  上海交通大学!上海200030  上海交通大学!上海200030
【摘要】Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。
【关键词】Web页面文本  主题抽取 加权
【基金】国家 8 63计划资助!(合同号 :863 30 6 ZD0 3 0 4 1)
【所属期刊栏目】情报学报
文献传递