基于机器学习的Web链接的抽取
2007-03-30分类号:G354
【部门】湘潭大学管理学院 湘潭大学管理学院 湖南湘潭411105 湖南湘潭411105
【摘要】互联网网页是通过超链接连接起来的,为人们的日常生活和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域发挥着越来越重要的作用。然而存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种有监督机器学习方法自动地抽取网页中的相关链接。试验结果表明该算法具有实用的价值。
【关键词】机器学习 链接抽取 主题漂移 贝叶斯算法
【基金】
【所属期刊栏目】情报理论与实践
文献传递