搜索文献-EPS

本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。

关键词： n-gram 汉字切分哈希码文献向量 KMA 自动分类

中文文献主题的自动标引

[期刊] 情报学报 [作者] 王永成顾晓明王丽霞

本文介绍了上海交通大学电脑应用技术研究所开发的中文文献主题自动标引系统ＣＳＡＩＳ２．１的主要思路、基本算法及其基本结构

关键词：自动标引,中文文献,主题词

中文文献自动分类中的知识库构造及其仿人算法

[期刊] 情报学报 [作者] 刁倩张惠惠王永成何骥

本文阐述了自动分类中的仿人思想 ,并用分类域模型来描述中文信息自动分类中的分类法 ,通过计算类别特征项在分类域中的Hamming距离 ,对类别特征项依据其在分类域中的类别分布进行聚类 ,从而实现对向量分类法中的特征向量维数的压缩 ,并进一步构造用于中文自动分类的知识库。

关键词：自动分类知识库特征向量仿人算法

OA中文文献自动摘要系统

[期刊] 情报学报 [作者] 王永成许慧敏

本文概括地介绍了研究与开发中文文献自动摘要系统的必要性、突破口的选择、发展进化的简史、已达到的最新水平以及实现的诀窍

关键词：中文,自动摘要,技术诀窍,最新水平

基于字频向量的中文文本自动分类系统

[期刊] 情报学报 [作者] 王梦云曹素青

本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。

关键词：文本分类中文自动分类字频向量映射函数语料库汉字

基于《中图法》的文献自动化深层分类的研究和实现

[期刊] 图书馆杂志 [作者] 张雨卉

基于《中图法》的文献深层分类蕴含着两个经典的自然语言处理问题：极限多标签文本分类（Extreme Multi-label Text Classification， XMC）和层次文本分类（Hierarchical text classification，HTC）。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题，由于没有充分挖掘问题的核心特点，这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究，本文基于对《中图法》文献分类特点和难点的深入分析，从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究并针对该场景下的特点进行应用和创新，不仅提高了分类的准确度，还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据，而后针对中图法分类中的HTC问题，利用LTR（Learning to Rank）框架融入包括层级结构信息等多元特征作为分类的辅助依据，极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具了深度学习模型强大的语义理解能力与机器学习模型的可解释性，同时具备了良好的可扩展性，后期可方便地融入专家定制的新特征进行提高，并且模型较为轻量，可在有限计算资源下轻松应对数万级别的分类标签，为基于《中图法》的全深度分类奠定了良好的基础。

关键词：极限多标签文本分类层次文本分类深度学习《中国图书馆分类法》

基于BERT模型的中文期刊文献自动分类实践研究

[期刊] 图书馆杂志 [作者] 沈立力姜鹏王静

Google AI团队发布的BERT模型在多项自然语言处理任务中取得了研究成果，但在中文文献自动分类领域尚有待探索。本文旨在探索BERT_(base)中文基础模型在中文社科、科技期刊文献分类上的实际分类效果，指出模型在实际应用中存在的问题并提出解决方法。本文选取R大类(医药、卫生)、TG大类(金属学与金属工艺)、F大类(经济)、J大类(艺术)共1 745 000条数据作为训练语料，并以另外9 610条数据作为测试样本，利用BERT模型分别对社科、科技期刊文献进行分类研究。测试结果表明BERT模型在社科文献中的四级准确率为76.95%，科技文献为68.55%。之后引入惩罚策略，为实际工作中免检数据阈值的设定提供参考。BERT_(base)模型在《全国报刊索引》实际分类标引工作中有一定可行性，基本满足当前网络环境下中文文献自动分类的需求。

关键词： BERT模型深度学习文献分类《中国图书馆分类法》

美国中文文献书目控制自动化述评

[期刊] 中国图书馆学报 [作者] 曾蕾

70年代起,美国成千上万所图书馆开始实现书目控制自动化,而北美的所有东亚图书馆却被迫多年完全采用手工作业方式。在那里,几乎所有大中型大专院校图书馆和研究图书馆都存在一个似乎被自动化社会所遗忘的角落。造成这种局面的原因之一是由于大多数从事书目自动化系统设计的人对非罗马化的东亚文字一无所知,相应的计算机硬件、软件、编目格式、检索手段,乃至目录卡片打印设备等都处于空白状态。大约10年前,美国国会图书馆和美国研究图书馆团体(Research Libraries Group,简称

关键词： Chinese materials——Automation of bibliographic control Bibliographic control——U.S. Automation——History

一种中文文本自动分类方法的研究

[期刊] 情报理论与实践 [作者] 尹桂秀

This article introduces a Chinese text automatic classification method,including its principle and classification process.The article focuses on some key theoretical problems,such as word classification,keyword collection and keyword matching.

关键词： text mining data mining automatic classificatin

基于特征向量的中文文献相似度评价

[期刊] 情报理论与实践 [作者] 杜薇薇

科技文献抄袭现象伴随着科学技术的发展时有发生,这严重损害了文献原作者,也对科技文献的严肃性提出了挑战。本文利用分词技术提取文献特征向量,并结合动态规划算法对文献的相似度给出具体评价,针对不同抄袭的现象,发现其中存在的规律,具体问题具体分析。最后给出实际实验结果,为文献评审提供参考。

关键词：特征向量相似度中文文献自动分词

谈《中图法》与地方文献的分类

[期刊] 图书馆 [作者] 贾少岩

谈《中图法》与地方文献的分类贾少岩（湖南省桃江县图书馆４１３４００）１《中图法》的地区区分及其配号方法《中图法》的地区区分是《中图法》分类的一个重要辅助标准，其立类方法主要有三种：（１）详尽例举。《中图法》一部分地区性类目是一一例举的，如哲学、历史、...

关键词：《中图法》地方文献地区表复分表类号文献分类少岩湖南省桃江县特藏书库组配分类法

中文自动文献系统研究

[期刊] 情报学报 [作者] 杨建林

本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。

关键词：自动文摘字频统计词频统计自动聚类

首页
下一页
尾页
第 页

文献操作() 导出元数据文献计量分析

全选

导出文件格式：WXtxt

作者：

删除

推荐搜索

论中文文献源数据库建设基于统计的中文文本分类研究一个中文文本自动分类数学模型网络教育公共服务体系在行动:基于中文文献综述基于引文的中文学术文献自动标引方法研究用于中文信息自动分类的《中图法》知识库的构建基于《中图法》的自动分类研究现状与展望《工程索引》收录中文文献的统计分析 2001-2008年德国会展研究中文文献综述中文文献数据库国际研讨会