标题
  • 标题
  • 作者
  • 关键词
登 录
当前IP:忘记密码?
年份
2024(9303)
2023(13556)
2022(11991)
2021(11293)
2020(9521)
2019(22119)
2018(21816)
2017(42401)
2016(22803)
2015(25889)
2014(25727)
2013(25043)
2012(22596)
2011(20195)
2010(19729)
2009(17851)
2008(17065)
2007(14514)
2006(12314)
2005(10382)
作者
(64027)
(53288)
(52788)
(50242)
(33799)
(25580)
(24007)
(21087)
(20247)
(18646)
(18173)
(17779)
(16682)
(16483)
(16454)
(16120)
(16028)
(15870)
(15227)
(15153)
(13065)
(12790)
(12789)
(12180)
(11953)
(11666)
(11655)
(11575)
(10691)
(10584)
学科
(88349)
经济(88217)
管理(66381)
(62142)
(52621)
企业(52621)
方法(45728)
数学(40110)
数学方法(39484)
(23202)
(22695)
中国(21451)
(19759)
业经(19199)
地方(16617)
(15867)
理论(15210)
(15122)
财务(15046)
财务管理(15013)
农业(15000)
(14833)
贸易(14826)
(14390)
(14263)
企业财务(14230)
技术(14220)
环境(13753)
(12373)
(12082)
机构
大学(318297)
学院(315720)
管理(129616)
(122030)
经济(119396)
理学(114019)
理学院(112808)
管理学(110573)
管理学院(110003)
研究(99433)
中国(72178)
(66275)
科学(63557)
(55323)
(49273)
业大(49071)
(48267)
中心(46042)
财经(45469)
研究所(44477)
(43399)
(41494)
(41021)
北京(40983)
师范(40599)
农业(38800)
(36930)
经济学(36644)
(35520)
财经大学(34201)
基金
项目(228363)
科学(179854)
基金(166836)
研究(165130)
(145434)
国家(144285)
科学基金(124947)
社会(103486)
社会科(98050)
社会科学(98026)
基金项目(89156)
(88860)
自然(83054)
自然科(81140)
自然科学(81121)
自然科学基金(79612)
教育(76250)
(75102)
资助(68816)
编号(67260)
成果(52956)
重点(50693)
(50265)
(47545)
(47352)
课题(45245)
创新(44355)
科研(44179)
教育部(43290)
大学(42927)
期刊
(123985)
经济(123985)
研究(86818)
中国(53527)
学报(51098)
科学(46656)
管理(45641)
(43504)
(41830)
大学(39110)
学学(36849)
教育(33207)
农业(30593)
技术(28359)
(21764)
金融(21764)
财经(21333)
业经(20921)
经济研究(19546)
(18089)
图书(16987)
问题(16279)
科技(15445)
理论(15319)
(15142)
技术经济(15124)
(14825)
统计(14441)
实践(14229)
(14229)
共检索到434349条记录
发布时间倒序
  • 发布时间倒序
  • 相关度优先
文献计量分析
  • 结果分析(前20)
  • 结果分析(前50)
  • 结果分析(前100)
  • 结果分析(前200)
  • 结果分析(前500)
[期刊] 情报理论与实践  [作者] 杜坤  刘怀亮  王帮金  
[目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。
[期刊] 图书情报工作  [作者] 尹丽英  赵捧未  
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。
[期刊] 图书馆论坛  [作者] 张琳  牟向伟  
随着互联网的发展,网络电子文本的数量急剧增加,这给人们快速高效地从海量数据中挖掘所需要的信息带来了巨大挑战。文本聚类是解决这个问题的一种可行方法。本文在文本聚类的过程中,针对K-means算法在聚类时需要事先指定簇的个数k和k个初始中心点这两方面的不足,采用Canopy+K-means的聚类算法进行中文文本聚类。也就是为了提高K-means的聚类效果,先使用Canopy算法对数据进行“粗”聚类,在得到k值和聚类中心后再使用K-means算法进行“细”聚类。另外,在聚类过程中,为了避免“维灾难”现象,本文基
[期刊] 数据分析与知识发现  [作者] 官琴  邓三鸿  王昊  
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素
[期刊] 情报理论与实践  [作者] 裘江南  罗志成  王延章  
词语语义相关度的计算,一种比较常用的方法是使用分类体系的语义词典,而国内外学者已经提出了多种基于语义相关的度量方法。这些方法对于词典和语言环境的依赖性是一个值得研究的问题。本文汇总了多种基于语义词典的方法,全面地概括分析了这类方法的特点。基于哈尔滨工业大学信息检索实验室提供的《同义词词林》扩展版,本文在真人单词对相关度判断实验中比较了多种方法的效果,从而找出了《同义词词林》扩展版中的较好方法。
[期刊] 情报理论与实践  [作者] 尹桂秀  
This article introduces a Chinese text automatic classification method,including its principle and classification process.The article focuses on some key theoretical problems,such as word classification,keyword collection and keyword matching.
[期刊] 图书情报工作  [作者] 赵登鹏  熊回香  田丰收  李昕然  
[目的/意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度。[结果/结论]实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。
[期刊] 情报理论与实践  [作者] 赵辉  刘怀亮  范云杰  左晓飞  
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。
[期刊] 情报理论与实践  [作者] 姚兴山  
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高。
[期刊] 情报理论与实践  [作者] 韩普  王东波  路高飞  
词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。
[期刊] 情报杂志  [作者] 杜秀英  
[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间
[期刊] 情报理论与实践  [作者] 何超  张玉峰  
针对传统的中文文本特征提取算法存在的语义丢失和语义缺乏问题,设计了融合领域本体的中文文本语义特征提取算法。该算法利用基于种子—扩展机制的关键词识别与提取算法解决传统算法中利用分词工具进行关键词提取所产生的语义丢失问题;利用基于领域本体的文本概念特征语义映射与聚合算法解决传统算法中利用向量空间模型进行文本表示所产生的高维和语义缺乏问题。实验结果表明,该算法取得了很好的预期效果,能够显著提高文本特征提取的深度和准确性。
[期刊] 情报理论与实践  [作者] 张建娥  
文章通过分析传统关键词提取方法的特点和存在的问题,提出基于多特征融合的中文文本关键词提取方法。该方法通过融合中文文本词语的频率、关联度、词性以及位置多种特征,有效避免了传统关键词提取方法产生的偏差。实验结果表明,该方法在不同测试集上与传统方法相比关键词提取的平均召回率均得到明显提升。
[期刊] 情报理论与实践  [作者] 刘怀亮  张治国  马志辉  孙蕾  
本文详细介绍了中文文本分类过程以及SVM和KNN两种方法在中文文本分类中的具体步骤,给出了中文文本分类的模型。通过实验对SVM算法和传统的KNN算法应用于文本分类效果进行了比较性实证研究。研究表明,SVM分类器较KNN在处理中文文本分类问题上有更良好的分类效果,有较高的查全率和查准率。
[期刊] 情报理论与实践  [作者] 范少萍  李迎迎  郑春厚  
流形学习算法作为一种非线性降维方法,目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个低维表示。文章尝试将流形学习算法应用于中文文本分类领域,利用局部线性判别嵌入方法对所选文本数据集进行特征降维。然后,分别利用K近邻分类器(KNN),支持向量机分类器(SVM)对文本进行分类实验。实验结果证明该方法是有效可行的,进一步验证了中文文本空间向量数据符合流形分布。
文献操作() 导出元数据 文献计量分析
导出文件格式:WXtxt
作者:
删除