中文本体的自动获取与评估算法分析

2005-07-30分类号：G254

【作者】董慧余传明

【部门】武汉大学信息资源研究中心武汉大学信息管理学院湖北430072 湖北430072

【摘要】在下一代互联网,即语义网中,信息模式建立在本体描述之上。由于手工构建本体是一项工作量巨大并且繁杂的任务,因而,能否自动构建本体正逐渐成为语义网使用的关键性要素。在这样的背景下,本文对比和借鉴了国内外本体自动获取的方法和思路,将中文领域本体的提取划分为文本预处理、本体抽取和本体关系获取三个阶段。接着,本文讨论了这三个步骤所涉及的算法,包括基于统计模式对文本抽词、基于奇异值分解从词—文档矩阵中提取本体、基于语义相似度对本体进行聚类等。对于本体自动获取的效果评估,本文提出了利用计算手工和自动两种方式得到的本体相似度来进行衡量的思路。

【关键词】信息检索评估算法/本体语义网

【基金】国家自然科学基金项目“基于本体的数字图书馆信息检索模型研究”的研究成果之一,项目编号:70373047

【所属期刊栏目】情报理论与实践

文献传递