搜索文献-EPS

用于汉语文献自动标引的词典组织结构对自动标引的效率有很大影响，自动标引中运用的词典查找算法有其自身的特点，符合这种特点的词典结构能提高自动标引过程中分词的速度。本文在分析了几种常用的词典结构的空间效率和时间效率之后，提出了一种通用而高效的词典组织方法。采用这种方法的词典，其体积可以减小到原来的０．４倍，分词速度提高到原来的２．５倍。

关键词：自动标引时间效率自动分词字串结构研究中文词分词方法空间效率索引文件组织结构

汉语文献字处理抽词

[期刊] 情报理论与实践 [作者] 欧金森

论述一种采用字处理方式用计算机从汉语文献中抽词的方法。该方法从目标词的外部着手，利用语法关系去掉目标词外围的词和字，同时注意区分去留字和词间的切分点，从而提高抽词效果。这种字处理运行机制的算法，为汉语主题抽调提出了新方法，并可与位控赋词并联运行，构成一整套字处理取词系统。

关键词：自动抽词,自动标引,汉语文献,计算机辅助标引

基于EM算法的汉语自动分词方法

[期刊] 情报学报 [作者] 李家福张亚非

汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。

关键词：分词汉语 EM算法语料库 HMM

基于CRFs和词典信息的中古汉语自动分词

[期刊] 数据分析与知识发现 [作者] 王晓玉李斌

【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。【局限】分词

关键词： CRFs模型分词一致性中古汉语自动分词

基于两字词簇的汉语快速自动分词算法

[期刊] 情报学报 [作者] 郭祥昊钟义信杨丽

本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占７５％的统计规律，提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理，也就是把长词的扫描范围限定在词汇量很小的词簇内，从而不仅提高了分词速度，而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外，本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现

关键词：自然语言处理,分词算法,切分歧义

面向领域文献的无监督中文分词自动优化方法

[期刊] 数据分析与知识发现 [作者] 倪维健孙浩浩刘彤曾庆田

【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出一个无监督的分词结果优化方法。【结果】基于农业领域语料开展实验,结果表明该方法对比ICTCLAS、THULAC和LTP的分词结果 F1值提升2%-3%,并具有实现简单、参数鲁棒性强的特点。【局限】提升召回率方面效果不佳。【结论】基于词频偏差的分词结果优化算法能够有效提升已有分词结果的准确性,

关键词：领域文献中文分词分词优化词频偏差

全文检索中的汉语自动分词及其歧义处理

[期刊] 中国图书馆学报 [作者] 熊回香

歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。

关键词：全文检索汉语自动分词歧义处理 t-信息差专家系统

基于知识评价的快速汉语自动分词系统

[期刊] 情报学报 [作者] 张民李生王海峰赵铁军王铁志

汉语自动分词是中文信息处理的首要工作。衡量一个分词系统性能优劣指标主要有两个，一个是切分的速度，一个是切分的精度。本文提出的基于知识评价的汉语自动分词算法，可大大提高系统的切分速度，而且利用基于复杂特征集的规则、模式等可处理掉大部分切分歧义。最后，本文对消歧提出了一些设想。

关键词：汉语自动分词,歧义,平价函数,词规则

基于神经网络的汉语自动分词系统的设计与分析

[期刊] 情报学报 [作者] 尹锋

应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手，阐述了基于神经网络的汉语自动分词系统的设计方法，较详细地介绍了该系统的实验结果，并给出了必要的分析。

关键词：神经网络,汉语分词

汉语分词技术综述

[期刊] 图书情报工作 [作者] 熊回香夏立新

首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。

关键词：汉语自动分词中文全文检索文献自动标引自然语言检索

汉语文古籍文献书目数据库建设管见

[期刊] 大学图书馆学报 [作者] 谢琴芳

探讨在当前信息技术和网络环境下,如何选择古籍文献书目记录的元数据格式,如何建立适应古籍文献编目对象特点的编目环境和如何实现资源共享等问题。

关键词：汉语文古籍古籍善本书目数据库书目元数据格式数字图书馆

自动抽词与自动分词

[期刊] 图书馆杂志 [作者] 张琪玉

自动抽词与自动分词既有紧密联系又有重大差别。自动抽词标引除编制题内关键词索引外,至今没有突破性进展,主要是检准率太低。本文指出自动抽词标引研究注重在各种更有效的算法的寻找,而忽视对相关问题的深入、系统的研究,是其进展缓慢的重要原因之一,并具体列举了一些相关问题。

关键词：自动抽词自动分词

汉语文献文外频率加权与逆文献频率加权方法的比较

[期刊] 情报理论与实践 [作者] 王超黄水清杨小莉

本文针对信息表示和信息检索中的文外频率加权和逆文献频率加权进行定量分析。以《软件学报》2004年发表的166篇计算机类的文献为测试集,通过计算机切词,统计词频,分别计算出各种语词加权方式不同的权重,并进行比较分析,得出了逆文献频率加权优于文外频率加权法,对文献频率取对数的逆文献频率加权公式优于不取对数的加权公式的结论。

关键词：信息检索加权算法语词加权逆文献频率加权

首页
下一页
尾页
第 页

文献操作() 导出元数据文献计量分析

全选

导出文件格式：WXtxt

作者：

删除

推荐搜索

基于词形的汉语文本切分方法汉语文古籍文献目录资源的共建共享——CALIS古籍联合目录系统汉语文本结构的自动分析面向食品安全突发事件汉语分词的特征选择及模型优化研究汉语盲文分词连写规则的研究进展与展望面向信息检索的汉语同义词自动识别和挖掘(英文) 民族院校汉语文教学中字词辨误方法初探盲生汉语盲文分词连写能力研究基于规则的纪传体古代汉语文献姓名识别大规模语料库现代汉语分词的有效工具——《大规模现代汉语分词语料库构建及应用》荐读