- 年份
- 2024(7690)
- 2023(11315)
- 2022(10128)
- 2021(9605)
- 2020(8089)
- 2019(18733)
- 2018(18845)
- 2017(36081)
- 2016(19968)
- 2015(22473)
- 2014(22318)
- 2013(21990)
- 2012(20238)
- 2011(17945)
- 2010(17676)
- 2009(15795)
- 2008(15173)
- 2007(12870)
- 2006(11047)
- 2005(9336)
- 学科
- 济(72794)
- 经济(72710)
- 管理(52274)
- 业(49609)
- 企(40953)
- 企业(40953)
- 方法(34720)
- 数学(29936)
- 数学方法(29556)
- 农(19930)
- 学(19122)
- 中国(17891)
- 财(17463)
- 地方(17004)
- 业经(16203)
- 农业(13468)
- 理论(12992)
- 和(12659)
- 贸(12645)
- 贸易(12637)
- 易(12192)
- 环境(11964)
- 制(11667)
- 技术(11662)
- 务(11107)
- 财务(11048)
- 财务管理(11031)
- 企业财务(10371)
- 教育(10237)
- 划(10076)
- 机构
- 大学(273507)
- 学院(271359)
- 管理(107817)
- 济(98749)
- 经济(96344)
- 理学(94391)
- 理学院(93259)
- 研究(91722)
- 管理学(91479)
- 管理学院(91006)
- 中国(65605)
- 科学(61806)
- 京(58905)
- 农(48023)
- 所(46779)
- 业大(45042)
- 财(43975)
- 研究所(43418)
- 中心(41673)
- 江(38720)
- 农业(38076)
- 范(37621)
- 师范(37198)
- 北京(36930)
- 财经(36032)
- 院(33991)
- 经(32717)
- 州(31795)
- 师范大学(30391)
- 技术(29815)
- 基金
- 项目(197444)
- 科学(153197)
- 基金(141141)
- 研究(141102)
- 家(124998)
- 国家(123974)
- 科学基金(105108)
- 社会(85147)
- 社会科(80436)
- 社会科学(80414)
- 省(77999)
- 基金项目(76830)
- 自然(71357)
- 自然科(69642)
- 自然科学(69625)
- 自然科学基金(68322)
- 划(66379)
- 教育(64137)
- 编号(58271)
- 资助(57682)
- 成果(46434)
- 重点(44486)
- 部(42414)
- 发(42136)
- 创(40888)
- 课题(39768)
- 科研(38417)
- 创新(38098)
- 计划(37366)
- 大学(36184)
共检索到379499条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
张旭 孙玉伟 成颖
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003—2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。
[期刊] 情报学报
[作者]
吴江 侯绍新 靳萌萌 胡忠义
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区"甜蜜家园"进行研究。本文利用LDA(L
[期刊] 情报理论与实践
[作者]
伍建军 康耀红
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。
关键词:
特征词聚类 文本分类 相似度计算
[期刊] 情报理论与实践
[作者]
韩普 王东波 路高飞
词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。
关键词:
词干化 词形还原 文本聚类 信息检索
[期刊] 图书情报工作
[作者]
常娥
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。
[期刊] 情报学报
[作者]
王东波 高瑞卿 叶文豪 周鑫 朱丹浩
随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。
关键词:
文本分类 条件随机场 篇章结构 深度学习
[期刊] 图书情报工作
[作者]
崔斌 王东波 黄水清
[目的/意义]我国农作物种植历史悠久,分析古代农作物的时间分布与发展演化情况对优化现代农业种植结构具有重要意义。[方法/过程]提出一套深入典籍文本内容的农作物时间分布及演化特征分析方法流程,主要包括语料获取与数字化、分词与实体关系抽取、时间分布特征分析、演化特征分析4部分,并选取15本史书中的《食货志》文本进行实证分析。[结果/结论]基于《食货志》文本的分析结果得到历史学、经济学、文献学等多学科相关研究资料的佐证,验证了方法的可行性与有效性,可以为基于典籍文本的古代农作物时间分布及演化特征分析提供借鉴。但未来还需要在提高自动化水平、扩大研究样本、细化事件类型等方面进一步优化方法流程。
[期刊] 特区经济
[作者]
范恒 王凯 彭燕
本文采用内容分析法,以江西资溪县为例,对森林康养旅游游客情感特征进行分析。以2020年1月至2021年12月为时间区间,利用爬虫软件从去哪儿、马蜂窝、同程旅行、携程四大旅游网站抓取目标文本,通过软件ROST Content Mining 6对文本数据进行分析,梳理出资溪县森林康养旅游发展中遇到的问题。研究表明:游客积极情感占主导地位,消极情感所占比例较小,积极情感强度以中度和高度为主,消极情感以一般和中度为主。为进一步增加游客积极情感、削弱游客消极情感,资溪县应从游客体验、产业体系、市场监管、管理制度与专业人才五方面采取改进措施。
关键词:
网络文本 森林康养 情感特征 资溪县
[期刊] 档案学通讯
[作者]
张敏 王小梅
档案征集政策对于引领档案征集工作走向成熟和完善起着至关重要的作用。通过中美档案征集政策文本构成要素的比较分析,可以看出美国的档案征集政策文本自成体系,逻辑严密,内容详细,具有很强的说服力和实操性。而我国档案征集政策文本则出现诸多盲点,尤其是利用基础和征集焦点的缺乏,难免使档案征集工作陷入盲目征集和零散征集的境地。针对我国档案征集政策文本的缺陷,简单的修改政策文本是不够的,需要遵循科学的档案征集政策的制定方法,在优化现有档案征集项目的同时形成完善的档案征集政策。
关键词:
综合档案馆 档案征集 美国
[期刊] 情报杂志
[作者]
方菁 郭继荣
[目的/意义]外交新闻的跨文化阐释、跨语言表达是构建中国特色大国外交话语权,搜集、分析、处理并传递外交情报的关键环节。口语和书面语的英语外交新闻在计量文体特征上呈现出差异化特征,如何有效辨别这些差异并探究其原因和影响具有重要的理论和现实意义。[方法/过程]使用聚类方法、统计检验等量化研究方法和文献分析、逻辑推理、个案分析等质性方法相结合的混合研究法,分类、鉴别、检验两种外交新闻语料具有显著性差异的计量文体特征,并论证其现实应用价值。[结果/结论]系统聚类能够有效鉴别口语和书面语英语外交新闻的计量文体特征存
[期刊] 图书情报工作
[作者]
高劲松 张俊丽
利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。
关键词:
模糊C均值 粒子群 文本聚类
[期刊] 情报学报
[作者]
郭红梅 孔贝贝 张智雄
在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基
[期刊] 情报学报
[作者]
张颖怡 章成志 陈果
文本聚类是一种无监督且高效的文本类别划分方法。从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一。在学术文本聚类研究中,主要使用单一的聚类方法。目前,一部分提升聚类性能的方法被提出,聚类集成是其中之一。因此,根据聚类集成思想,本文开展了基于关键词的学术文本聚类研究。为分析聚类集成在学术文本聚类中的有效性,本文比较了非集成聚类算法与聚类集成算法的性能。同时,为分析关键词对聚类集成性能的影响,本文分析了不同关键词抽取方法和不同关键词个数下学术文本的聚类结果。实验结果表明,聚类集成算法能够提升学术文本聚类的性能。其中,当使用TextRank作为关键词抽取方法时,学术文本聚类结果较佳;随着关键词个数的增加,学术文本类别划分性能随之提升。
关键词:
抽取 文本聚类 主题划分 聚类集成
[期刊] 情报理论与实践
[作者]
杜坤 刘怀亮 王帮金
[目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。
[期刊] 数据分析与知识发现
[作者]
官琴 邓三鸿 王昊
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素
关键词:
文本聚类 停用词 K-means
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除