标题
  • 标题
  • 作者
  • 关键词

基于百科资源的多策略中文同义词自动抽取研究

2010-01-15分类号:TP391.1

【作者】陆勇  章成志  侯汉清  
【部门】南京信息工程大学  南京理工大学信息管理系  中国科学技术信息研究所在站  南京农业大学信息管理系  
【摘要】采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路。综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点。实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中。未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵。
【关键词】信息抽取  中文同义词  同义词抽取  百科语料库
【基金】中国博士后科学基金特别资助项目(项目标号:200801105); 国家科技支撑计划重点项目(项目编号:2006BAH03B02)“科技文献信息服务系统关键技术研究及应用示范项目”子课题; 教育部人文社会科学研究一般项目(项目编号:08JC870007)研究成果之一
【所属期刊栏目】中国图书馆学报
文献传递