标题
  • 标题
  • 作者
  • 关键词

基于GATE语义标注的Web信息的自动抽取

2010-03-05分类号:TP393.09

【作者】聂卉  黄贵鹏  
【部门】中山大学资讯管理系  
【摘要】重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为S-DOM树。从S-DOM树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。
【关键词】Web信息抽取  语义标注  包装器
【基金】教育部人文社会科学研究项目“基于信息抽取的数字图书馆的知识获取研究”(项目批准号:08JC870013)研究成果之一
【所属期刊栏目】图书情报工作
文献传递