- 年份
- 2024(8965)
- 2023(13067)
- 2022(11361)
- 2021(10539)
- 2020(8932)
- 2019(20322)
- 2018(20006)
- 2017(38428)
- 2016(21125)
- 2015(23506)
- 2014(23090)
- 2013(22898)
- 2012(20950)
- 2011(18847)
- 2010(18389)
- 2009(16641)
- 2008(16020)
- 2007(13787)
- 2006(11921)
- 2005(10155)
- 学科
- 济(79787)
- 经济(79694)
- 管理(58554)
- 业(56031)
- 企(46122)
- 企业(46122)
- 方法(39199)
- 数学(34160)
- 数学方法(33777)
- 农(21467)
- 学(20390)
- 中国(20275)
- 财(19807)
- 业经(17793)
- 地方(15811)
- 贸(15523)
- 贸易(15517)
- 易(15051)
- 农业(14585)
- 技术(13300)
- 理论(13203)
- 制(13134)
- 环境(13093)
- 和(12981)
- 务(12622)
- 财务(12562)
- 财务管理(12542)
- 企业财务(11872)
- 划(11246)
- 银(11060)
- 机构
- 大学(299136)
- 学院(295649)
- 管理(117446)
- 济(112443)
- 经济(110032)
- 理学(103319)
- 理学院(102132)
- 研究(101841)
- 管理学(100102)
- 管理学院(99616)
- 中国(72487)
- 科学(68903)
- 京(64115)
- 农(58431)
- 所(52657)
- 业大(52536)
- 研究所(48928)
- 财(48256)
- 农业(46714)
- 中心(45244)
- 江(41417)
- 北京(40025)
- 财经(39753)
- 范(38127)
- 师范(37562)
- 院(37251)
- 经(36315)
- 州(33644)
- 经济学(32880)
- 技术(32214)
- 基金
- 项目(215667)
- 科学(167488)
- 基金(156330)
- 研究(148881)
- 家(140313)
- 国家(139201)
- 科学基金(117692)
- 社会(92159)
- 社会科(87249)
- 社会科学(87223)
- 省(84701)
- 基金项目(84129)
- 自然(80915)
- 自然科(78996)
- 自然科学(78971)
- 自然科学基金(77543)
- 划(72440)
- 教育(67536)
- 资助(64220)
- 编号(59252)
- 重点(48583)
- 部(46251)
- 成果(46116)
- 发(45459)
- 创(45017)
- 计划(42464)
- 科研(42341)
- 创新(41996)
- 课题(40666)
- 大学(39089)
- 期刊
- 济(115562)
- 经济(115562)
- 研究(81651)
- 学报(58672)
- 中国(52043)
- 农(51726)
- 科学(50427)
- 大学(42582)
- 管理(40858)
- 学学(40459)
- 农业(36046)
- 财(34310)
- 教育(29571)
- 技术(23403)
- 融(20715)
- 金融(20715)
- 业经(19580)
- 经济研究(19133)
- 业(18624)
- 财经(18411)
- 科技(16523)
- 业大(16393)
- 图书(15671)
- 经(15628)
- 版(15462)
- 问题(15199)
- 理论(14083)
- 技术经济(13710)
- 林业(13480)
- 农业大学(13176)
共检索到411840条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
韩普 王东波 路高飞
词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。
关键词:
词干化 词形还原 文本聚类 信息检索
[期刊] 情报理论与实践
[作者]
杜坤 刘怀亮 王帮金
[目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。
[期刊] 数据分析与知识发现
[作者]
官琴 邓三鸿 王昊
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素
关键词:
文本聚类 停用词 K-means
[期刊] 图书馆论坛
[作者]
张琳 牟向伟
随着互联网的发展,网络电子文本的数量急剧增加,这给人们快速高效地从海量数据中挖掘所需要的信息带来了巨大挑战。文本聚类是解决这个问题的一种可行方法。本文在文本聚类的过程中,针对K-means算法在聚类时需要事先指定簇的个数k和k个初始中心点这两方面的不足,采用Canopy+K-means的聚类算法进行中文文本聚类。也就是为了提高K-means的聚类效果,先使用Canopy算法对数据进行“粗”聚类,在得到k值和聚类中心后再使用K-means算法进行“细”聚类。另外,在聚类过程中,为了避免“维灾难”现象,本文基
[期刊] 清华大学教育研究
[作者]
高小云 程慕胜
自动文摘是通过人工智能技术 ,利用计算机从文章中自动提取内容生成摘要的方法。与传统手工生成文摘的方式相比 ,自动文摘能够从大量文本中快速高效地检索和获取信息 ,节省了时间和人力。本文对目前流行的两类主要的自动文摘方法 ,即机械式文摘和理解式文摘进行了分析比较 ,并介绍了自动文摘的未来发展方向
[期刊] 图书情报工作
[作者]
余凡 程虹 楼雯
针对目前适用于中文文本非等级关系提取方法偏少以及关联规则筛选方法忽略了集中出现在部分文本集中的领域词汇关系的问题,通过对中文文本的统计分析,尝试定义一套中文非等级关系提取的规则,同时提出一种加入平均值变量的改进的关联规则。实践证明,基于自定义的语法规则提取方法能够有效地从中文文本中提取出主、谓、宾语,进而提取出非等级关系,改进的关联规则方法能够提取出集中出现在部分文本集中的领域词汇非等级关系。
[期刊] 图书情报工作
[作者]
常娥
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。
[期刊] 情报理论与实践
[作者]
张旭 孙玉伟 成颖
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003—2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。
[期刊] 中国图书馆学报
[作者]
颜端武 成晓 甘利人
文本相似性测度被广泛用于计算用户提问与文档资源相关程度以及基于内容相似资源推荐。OCVSM是一种基于领域本体和概念向量相似性测度的方法。该方法将军用飞机领域知识本体OntoAvion的概念集作为词汇抽取特征项,根据本体中概念间的关系确定特征项的相似度,最后利用余弦算法计算文本向量相似度。实验证明,该方法与基于语言学词典的相似性测度方法相比,更接近用户对文本相似性的判断。表10。图5。参考文献10。
关键词:
相似性测度 领域本体 概念向量 文本处理
[期刊] 中南林业科技大学学报
[作者]
何岸 胡伟刚
为了提高水印的鲁棒性,适应文本完整性检测的需求,很多文献提倡多组水印的冗余嵌入方法,这涉及到文本分块问题。根据中文汉字的结构,研究并提出了一种中文文本分块设计方法以及水印嵌入算法。该方法具有明显的中文文字特色,能有效提高水印的鲁棒性,提高受攻击后水印的恢复能力。
关键词:
文本分块 汉字结构 鲁棒性
[期刊] 情报理论与实践
[作者]
刘怀亮 张治国 赵捧未
本文依据反馈学习的思想和支持向量机分类算法,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型,通过实验研究了反馈学习对中文文本分类模型性能的影响。结果表明,反馈学习对分类性能的提高有明显作用,它是对实时变化信息的有效解决方法。
关键词:
反馈学习 支持向量机 文本分类
[期刊] 情报理论与实践
[作者]
姚兴山
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高。
关键词:
文本分词 特征选取 文本分类
[期刊] 情报理论与实践
[作者]
尹桂秀
This article introduces a Chinese text automatic classification method,including its principle and classification process.The article focuses on some key theoretical problems,such as word classification,keyword collection and keyword matching.
[期刊] 现代城市研究
[作者]
李志明 濮佩君
国外的海绵城市研究起步较早,在理论研究和工程实践方面都有着丰富的文献积累,值得国内学界借鉴。本文以Web of Science(WoS)数据库作为文献搜索引擎,运用当前国际上常用的两种信息可视化软件citeSpace和VoSVieWer来揭示英文文献中海绵城市研究领域的科学知识图谱,通过对重要文献、代表学者和研究热点的分析,发现2001-2016年间英文文献中海绵城市研究领域的知识结构与演进趋势,解析海绵城市的相关基础理论、实践经验和技术方法从而对我国的海绵城市理论研究与规划建设提供有益的参考。
[期刊] 图书情报工作
[作者]
高劲松 张俊丽
利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。
关键词:
模糊C均值 粒子群 文本聚类
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除