基于领域本体的中文Web文本主题特征抽取方法
2008-03-30分类号:G350
【部门】南京邮电大学经济与管理学院 南京航空航天大学经济与管理学院 南京邮电大学经济与管理学院 江苏南京210003 江苏南京210016 江苏南京210003
【摘要】为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。
【关键词】主题抽取 领域本体 文本挖掘
【基金】江苏省高校自然科学基础研究项目(项目编号:KJD520151); 国防技术基础项目的研究成果之一
【所属期刊栏目】情报理论与实践
文献传递