融合领域本体的中文文本语义特征提取算法研究
2013-09-30分类号:TP391.1
【部门】武汉大学信息资源研究中心
【摘要】针对传统的中文文本特征提取算法存在的语义丢失和语义缺乏问题,设计了融合领域本体的中文文本语义特征提取算法。该算法利用基于种子—扩展机制的关键词识别与提取算法解决传统算法中利用分词工具进行关键词提取所产生的语义丢失问题;利用基于领域本体的文本概念特征语义映射与聚合算法解决传统算法中利用向量空间模型进行文本表示所产生的高维和语义缺乏问题。实验结果表明,该算法取得了很好的预期效果,能够显著提高文本特征提取的深度和准确性。
【关键词】文本语义特征 领域本体 算法
【基金】教育部博士研究生学术新人奖(项目编号:5052012104001); 国家自然科学基金项目(项目编号:71073121)的研究成果之一
【所属期刊栏目】情报理论与实践
文献传递