基于主题爬虫的本体非分类关系学习框架
2010-09-20分类号:TP391.1
【部门】中国科学院国家科学图书馆 解放军艺术学院教育技术中心
【摘要】提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法K-Means,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。
【关键词】本体学习 非分类关系 主题爬虫 分割聚类算法 相关度
【基金】
【所属期刊栏目】图书情报工作
文献传递