搜索文献-EPS

文章提出一种基于多重过滤策略的科技文献自动标引方法,该方法不依赖于大规模训练语料,很容易作为处理模块嵌入到其他文本处理环节中,实验结果验证了方法的可行性。另外,还提出了一种基于二次文献的标引词评价方法。该方法虽然严重依赖于二次文献中给出的摘要和关键词的质量,但在人力和物力资源不足以支持建立一个高质量测试集的条件下是有价值的,制定更加合理有效的评测方案势在必行。

关键词：多重过滤科技文献自动标引

中文科技文献计算机自动标引系统的研究

[期刊] 情报学报 [作者] 牛凯

本文针对目前国内外各种计算机自动标引的理论和方法在知识表达方式、词典结构、词的切分和组配、歧义处理等方面所存在的不足，提出了词典基于静态知识表达的网状结构，较好地解决了词典的完备性与存储空间的矛盾；同时使知识的表达更为简洁实用，为切分歧义难点的根本解决提供了方法论。

关键词：科技文献自动标引系统静态知识中文信息文献主题知识表达汉语自动分词《情报学报》文献利用标引深度

PDF格式网络中文学术文献的识别与检索——基于学术文献文体特征的研究

[期刊] 图书情报工作 [作者] 邹永利冯文炬

学术文献具有鲜明的文体特征,且部分特征能够用于PDF格式网络中文学术文献的自动识别与检索。提取学术文献在特有表述、句子平均长度、中西文比例等方面存在的特征,用来识别PDF格式的中文学术文献,对Google通用搜索引擎的搜索结果进行重新排序。结果显示文体特征的运用能够在一定程度上提高网络PDF学术文献的检准率。

关键词：网络学术文献文体特征 PDF文件信息检索

基于中文学术文献的领域本体概念层次关系抽取研究

[期刊] 情报学报 [作者] 唐琳郭崇慧陈静锋孙磊磊

基于学术文献构建领域本体对促进领域学科发展具有重要的意义。本文提出了一种以中文学术文献为数据源,半自动化抽取领域本体层次关系的框架方法。首先,构建了一个通用的领域本体层次关系的细粒度研究框架。其次,设计了一种新的概念表示方法,融合了深度学习方法得到的概念语义特征和上下文的时间序列词频。进一步结合了AP聚类、Prim算法和Web搜索引擎的查询数据,提出了基于规则推理的本体概念层次关系抽取算法(RROCHE),实现了半自动化概念层次关系抽取。最后,基于中文分词领域的中文学术文献数据,通过数值实验方法讨论了方法的可行性和有效性。本文提出的框架方法也非常容易推广并应用到各领域本体层次关系任务中。

关键词：概念层次关系本体构建学术文献深度学习时间序列

中文学术文献网页的特征

[期刊] 图书馆论坛 [作者] 邹永利林智昊

互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺。文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性。研究结果显示,学术文献网页在关键词词频、链接数量和相关链接比例等特征方面与非学术文献网页具有明显差别,差异程度都大于75%,属于程度明显,能较好地用于区分学术文献网页与非学术文献网页,为今后系统开发学术文献网页的自动化识别工具提供了依据和理论支持。

关键词：网络文献学术文献网页特征信息检索

中文文献自动分类研究

[期刊] 情报学报 [作者] 王永成张坤

本文对作者开发的两个中文文献自动分类系统的工作原理、方法、数学模型和实现技术进行了比较全面的介绍。

关键词：自动分类,仿人算法,情报语言学,原理,实现技术

中文自动文献系统研究

[期刊] 情报学报 [作者] 杨建林

本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。

关键词：自动文摘字频统计词频统计自动聚类

学术文献引文上下文自动识别研究

[期刊] 图书情报工作 [作者] 雷声伟陈海华黄永陆伟

［目的／意义］引文内容分析能够帮助揭示文献引用关系的深层语义内涵，而引文上下文识别作为引文内容分析的基础显得尤为重要。［方法／过程］梳理已有引文上下文研究的现状，总结当前引文上下文识别的不足，在此基础上归纳引文上下文识别的５类特征，并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。［结果／结论］实验结果表明，本文提出的特征能够很好地提升引文上下文识别效果，且基于文本分类的ＳＶＭ分类效果要优于基于序列标注的ＣＲＦ。

关键词：引文上下文引文内容分析支持向量机条件随机场隐式上下文

中文农业科技文献自动标引系统SDIC/CASDAIS

[期刊] 情报学报 [作者] 王继华王怀惠吴泽宜

本文介绍了一个中文农业文献自动标引系统ＳＤＩＣ／ＣＡＳＤＡＩＳ，它集自动主题标引与自动分类标引于一体，采用主题词表、预匹配词表和停用词表相结合的词典法方案，匹配中采取正向增字跳字最长匹配的算法，末二字回溯，制订大量规则以降低错标。该系统可完成主题标引和分类标引，能处理农业文献中常见的缩略语和科技术语不规范现象，具备动态构词功能。ＳＤＩＣ／ＣＡＳＤＡＩＳ系统采用特征词析取方法处理不包含在词表中的品种、物质名称和地名等关键词，其自由词判定规则还可以判别标题的部分自由词，通过词频统计可作为更新词表的依据。ＳＤＩＣ／ＣＡＳＤＡＩＳ系统的标引速度为３０００条标题／小时，平均标引深度略大于４，主题标引精度...

关键词： CASDAIS SDIC 科技文献自动标引系统主题标引标引深度分类标引主题词表中文信息跳字

基于支持向量机和核心特征词的科技文献自动标引研究

[期刊] 情报理论与实践 [作者] 白如江王晓笛王效岳

科技文献通常包括研究目的、方法、结果和结论等信息,如何将科技文献标引上这些信息,帮助科研人员在数量巨大的文献中快速发现符合研究需要的内容显得尤为重要。文章在研究分析科技文献写作特点基础上,提出了基于词、英文(专有名词、缩写词)以及数字的核心特征词提取策略;然后将科技文献标引问题转化为句子分类问题,结合提出的核心特征词,采用支持向量机分类器对科技文献进行句子级别的语义标引。通过对1168篇糖尿病医学类论文实验,证明本文提出的方法能够有效地学习和标引科技文献中的句子,进而有效地对科技文献关键信息点进行自动标引。

关键词：自动标引支持向量机特征提取科技文献

一种基于N-Gram技术的中文文献自动分类方法

[期刊] 情报学报 [作者] 何浩杨海棠

本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。

关键词： n-gram 汉字切分哈希码文献向量 KMA 自动分类

基于《中图法》的中文文献自动分类

[期刊] 情报学报 [作者] 叶新明

本文通过对现有中文自动分词算法的分析，提出了适于中文文献自动分类的自动分词算法。该算法通过建立机读词表，以《中图法》作为分类标准，对中文文献实现了自动分类。通过对财政金融类文献的测试，其准确率可达７９％。

关键词：《中图法》中文文献复分表类名自动分词类号分类标准图书分类类目设置文献资料

基于BERT模型的中文期刊文献自动分类实践研究

[期刊] 图书馆杂志 [作者] 沈立力姜鹏王静

Google AI团队发布的BERT模型在多项自然语言处理任务中取得了研究成果，但在中文文献自动分类领域尚有待探索。本文旨在探索BERT_(base)中文基础模型在中文社科、科技期刊文献分类上的实际分类效果，指出模型在实际应用中存在的问题并提出解决方法。本文选取R大类(医药、卫生)、TG大类(金属学与金属工艺)、F大类(经济)、J大类(艺术)共1 745 000条数据作为训练语料，并以另外9 610条数据作为测试样本，利用BERT模型分别对社科、科技期刊文献进行分类研究。测试结果表明BERT模型在社科文献中的四级准确率为76.95%，科技文献为68.55%。之后引入惩罚策略，为实际工作中免检数据阈值的设定提供参考。BERT_(base)模型在《全国报刊索引》实际分类标引工作中有一定可行性，基本满足当前网络环境下中文文献自动分类的需求。

关键词： BERT模型深度学习文献分类《中国图书馆分类法》

首页
下一页
尾页
第 页

文献操作() 导出元数据文献计量分析

全选

导出文件格式：WXtxt

作者：

删除

推荐搜索

中文文献自动分类研究概述浅论中文学术会议文献的收集与整理基于文献引文网络的学者学术影响力测度研究学术文献引文推荐研究进展学术文献引文推荐研究进展 基于学术文献引文内容的跨学科知识流动研究用于汉语文献自动标引的词典结构研究基于引文—主题概率模型的科技文献主题识别方法研究文献题名自动抽词——分类标引系统引文网络中文献深度聚合方法与实证研究——以WOS数据库中XML研究论文为例