标题
  • 标题
  • 作者
  • 关键词

一种基于N-Gram改进的文本特征提取算法

2004-08-18分类号:TP391.1

【作者】于津凯  王映雪  陈怀楚
【部门】清华大学计算机与信息管理中心  清华大学计算机与信息管理中心  清华大学计算机与信息管理中心 北京 100084   北京 100084   北京 100084
【摘要】介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。
【关键词】文本特征提取  N-Gram算法  gram关联矩阵
【基金】
【所属期刊栏目】图书情报工作
文献传递