标题
  • 标题
  • 作者
  • 关键词

基于文档对象模型与行块分布算法的网页信息抽取

2016-04-08分类号:TP391.1

【作者】高庆宁  吴鹏  张晶晶  
【部门】南京理工大学经济管理学院  安全预警与应急联动技术湖北省协同创新中心  
【摘要】[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。
【关键词】文档对象模型  算法  网页  信息抽取
【基金】国家自然科学基金项目“突发事件网络舆情演变过程中的人群仿真研究”(项目编号:71273132),国家自然科学基金项目“基于情感倾向性分析的网络舆情意见领袖识别与对策研究”(项目编号:71303111); 中央高校基本科研业务专项资金项目(项目编号:30920140111006); 江苏省“青蓝工程”〔2012〕39号项目; 江苏高校优势学科建设工程资助的研究成果
【所属期刊栏目】情报理论与实践
文献传递