基于网络爬虫的森林经营知识采集系统研建
2017-08-20分类号:S750;TP391.3
【部门】北京林业大学信息学院
【摘要】针对如何在互联网上准确获取森林经营知识的问题,提出研建森林经营知识采集系统来解决这一问题。在分析森林经营知识采集问题的基础上,设计系统流程、系统模块、数据库,改进网络爬虫规则并加以限定,论述爬虫工作流程和算法。该系统总结分析了森林经营主题网页的特点,通过建立森林经营特征向量对采集内容进行识别,并对森林经营知识去噪处理,智能匹配规则提取知识,使用欧氏距离识别指纹去除重复的森林经营知识。实验结果表明,该系统采集的森林经营知识具有高主题相关度、高准确率、低重复度的特点,满足服务于森林经营决策支持系统的要求。
【关键词】森林经理学 森林经营知识 知识库 知识采集 网络爬虫
【基金】“十二五”国家高技术研究发展计划(“863”计划)项目(2012AA102003)
【所属期刊栏目】浙江农林大学学报
文献传递