标题
  • 标题
  • 作者
  • 关键词

分布式Web主题信息抽取的框架探析

2014-12-17分类号:TP391.1

【作者】王吉林  舒江波  李勇  杨森  
【部门】华中师范大学教育信息技术学院  华中师范大学国家数字化学习工程技术研究中心  
【摘要】近年来Web信息抽取技术领域的研究已经取得了一定进展,但系统的抽取性能仍有待提高。针对这一问题,提出了一种Web主题信息自动化抽取的新框架。该框架提供了一种自动生成网页信息抽取规则的方法,并将网页信息抽取的任务由服务器端转移到客户端,充分利用网页设计模版的结构化、层次化特点,通过对网页进行爬取、净化和处理,转化成XML文档,然后根据XPath定位主题信息,抽取出该主题信息的公共抽取规则。实验结果表明,该方法能快速有效地抽取所定制的感兴趣的主题网页信息,并且具有较高的准确率。
【关键词】主题信息  信息抽取  规则
【基金】国家科技支撑计划课题“数字学习内容公共服务关键支撑技术研究”的成果,项目编号:2013BAH18F02
【所属期刊栏目】情报理论与实践
文献传递