搜索文献-EPS

为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。

关键词：语义网络词义消歧社团结构文本分类

基于SVM与KNN的中文文本分类比较实证研究

[期刊] 情报理论与实践 [作者] 刘怀亮张治国马志辉孙蕾

本文详细介绍了中文文本分类过程以及SVM和KNN两种方法在中文文本分类中的具体步骤,给出了中文文本分类的模型。通过实验对SVM算法和传统的KNN算法应用于文本分类效果进行了比较性实证研究。研究表明,SVM分类器较KNN在处理中文文本分类问题上有更良好的分类效果,有较高的查全率和查准率。

关键词：支持向量机文本分类实证研究

基于局部线性判别嵌入算法的中文文本分类研究

[期刊] 情报理论与实践 [作者] 范少萍李迎迎郑春厚

流形学习算法作为一种非线性降维方法,目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个低维表示。文章尝试将流形学习算法应用于中文文本分类领域,利用局部线性判别嵌入方法对所选文本数据集进行特征降维。然后,分别利用K近邻分类器(KNN),支持向量机分类器(SVM)对文本进行分类实验。实验结果证明该方法是有效可行的,进一步验证了中文文本空间向量数据符合流形分布。

关键词：流形学习文本分类算法

一种基于语义的中文文本分类算法

[期刊] 情报理论与实践 [作者] 赵辉刘怀亮范云杰左晓飞

针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。

关键词：文本分类语义向量空间向量空间模型语义相似度算法

面向新闻领域的中文文本分类研究综述

[期刊] 图书情报工作 [作者] 薛春香张玉芳

在对文本分类及中文新闻分类概述的基础上,归纳出网络新闻文本特征及当前新闻文本分类特点,并总结新闻文本分类在新闻网站分类导航、话题识别与跟踪、个性化推荐三方面的应用。其后,总结中文新闻分类存在的问题,诸如缺乏通用语料和评价方法、分类体系粗略、分类维度单一等,并提出相应措施。最后,针对当前信息环境,提出新闻分类不仅将朝着多层次、多维度、跨语言方向发展,还将与多媒体信息、大数据、社会化媒体相结合。

关键词：新闻分类文本分类机器学习中文信息处理

基于字频向量的中文文本自动分类系统

[期刊] 情报学报 [作者] 王梦云曹素青

本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。

关键词：文本分类中文自动分类字频向量映射函数语料库汉字

一种中文文本自动分类方法的研究

[期刊] 情报理论与实践 [作者] 尹桂秀

This article introduces a Chinese text automatic classification method,including its principle and classification process.The article focuses on some key theoretical problems,such as word classification,keyword collection and keyword matching.

关键词： text mining data mining automatic classificatin

引文文本分类与实现方法研究综述

[期刊] 图书情报工作 [作者] 王文娟马建霞陈春张凌波

［目的／意义］对引文文本分类的标准、实现方法和应用进行梳理，分析存在的问题，提出可改进的方向。［方法／过程］总结目前引文文本分类的几个重要角度，如基于引用功能、基于情感倾向、基于引文影响力等，对引文文本分类的实现方法进行比较，分析其优缺点。［结果／结论］目前引文文本没有统一的分类标准和实现方法，引文文本的获取较为困难，计算机分类算法准确率较低，中文引文文本分析文献少。未来研究思路和方向应该是：统一文本分类的标准，提高引文文本计算机处理技术的准确性，扩大应用范围。

关键词：引文文本分类引文内容分析引文分析

中文文献自动分类研究

[期刊] 情报学报 [作者] 王永成张坤

本文对作者开发的两个中文文献自动分类系统的工作原理、方法、数学模型和实现技术进行了比较全面的介绍。

关键词：自动分类,仿人算法,情报语言学,原理,实现技术

一种迭代加权的元样本稀疏表示中文文本分类算法

[期刊] 情报理论与实践 [作者] 李秀霞邵作运郑春厚

为进一步提高文本分类的准确率和鲁棒性,在元样本稀疏表示分类算法的基础上,提出一种迭代加权的元样本稀疏表示文本分类算法,该算法在每一步迭代中依据一定的规则有监督地对权系数进行调整,使目标函数值被限定在较小的范围内,逐步逼近最优拉格朗日乘子,以得到更加稀疏的样本表示系数。实验结果表明,与经典的文本分类算法KNN、SVM及非加权的MSRC算法相比,提出的文本分类算法具有较高的准确率和较好的鲁棒性。

关键词：文本分类元样本分类算法

基于序列比对算法的中文文本相似度计算研究

[期刊] 图书情报工作 [作者] 赵登鹏熊回香田丰收李昕然

[目的/意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度。[结果/结论]实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。

关键词： CRF 模型词性标注 Word2Vec 序列比对局部比对文本相似度

基于语义相关度的中文文本聚类方法研究

[期刊] 情报理论与实践 [作者] 杜坤刘怀亮王帮金

［目的／意义］在基于向量空间模型的文本聚类中，文本相似度计算忽略特征项间语义关联，针对此问题，提出一种改进的语义文本相似度计算方法。［方法／过程］新方法利用维基百科知识库计算语义相关度，结合特征项在文本中的表示权重，构造文本相似度语义加权因子，并进行Ｋ－ｍｅａｎｓ文本聚类实验。［结果／结论］与传统的余弦相似度相比，改进后的语义文本相似度应用在文本聚类上，能有效提高聚类的准确度。［局限］语义相关度的计算没有对词语进行消歧处理。

关键词：维基百科语义相关度文本相似度文本聚类

中文文本数字水印算法的研究

[期刊] 中南林业科技大学学报 [作者] 何岸胡伟刚

为了提高水印的鲁棒性,适应文本完整性检测的需求,很多文献提倡多组水印的冗余嵌入方法,这涉及到文本分块问题。根据中文汉字的结构,研究并提出了一种中文文本分块设计方法以及水印嵌入算法。该方法具有明显的中文文字特色,能有效提高水印的鲁棒性,提高受攻击后水印的恢复能力。

关键词：文本分块汉字结构鲁棒性

首页
下一页
尾页
第 页

文献操作() 导出元数据文献计量分析

全选

导出文件格式：WXtxt

作者：

删除

推荐搜索

基于ART神经网络的中文文档分类识别方法研究基于蚁群智能算法的文本分类研究基于《中图法》的中文文献自动分类一个中文文本自动分类数学模型中文文献自动分类研究概述一种基于维基百科的中文短文本分类算法基于领域本体和概念向量的中文文本相似性测度研究统计模型在中文文本挖掘中的应用基于Canopy+K-means的中文文本聚类算法