搜索文献-EPS

年份: 2024(7690); 2023(11315); 2022(10128); 2021(9605); 2020(8089); 2019(18733); 2018(18845); 2017(36081); 2016(19968); 2015(22472); 2014(22318); 2013(21989); 2012(20238); 2011(17945); 2010(17676); 2009(15795); 2008(15173); 2007(12870); 2006(11047); 2005(9336)

作者: 王(57727); 张(47899); 李(47556); 刘(45167); 陈(30586); 杨(23203); 晓(21578); 赵(18999); 周(18222); 华(16894); 吴(16612); 文(15991); 林(15258); 明(15084); 伟(14752); 丽(14677); 志(14554); 孙(14197); 黄(13625); 徐(13570); 玉(12040); 平(11686); 军(11517); 朱(10875); 郭(10724); 建(10704); 红(10569); 胡(10492); 艳(9653); 春(9555)

学科: 济(72792); 经济(72708); 管理(52274); 业(49609); 企(40953); 企业(40953); 方法(34718); 数学(29934); 数学方法(29554); 农(19930); 学(19122); 中国(17891); 财(17463); 地方(17004); 业经(16203); 农业(13468); 理论(12992); 和(12659); 贸(12645); 贸易(12637); 易(12192); 环境(11964); 制(11667); 技术(11662); 务(11107); 财务(11048); 财务管理(11031); 企业财务(10371); 教育(10237); 划(10076)

机构: 大学(273505); 学院(271358); 管理(107817); 济(98747); 经济(96342); 理学(94391); 理学院(93259); 研究(91720); 管理学(91479); 管理学院(91006); 中国(65605); 科学(61806); 京(58905); 农(48023); 所(46778); 业大(45042); 财(43975); 研究所(43418); 中心(41671); 江(38720); 农业(38076); 范(37621); 师范(37198); 北京(36930); 财经(36032); 院(33991); 经(32717); 州(31795); 师范大学(30391); 技术(29815)

基金: 项目(197442); 科学(153195); 基金(141139); 研究(141100); 家(124996); 国家(123972); 科学基金(105106); 社会(85145); 社会科(80434); 社会科学(80412); 省(77999); 基金项目(76830); 自然(71355); 自然科(69640); 自然科学(69623); 自然科学基金(68320); 划(66378); 教育(64136); 编号(58271); 资助(57680); 成果(46433); 重点(44486); 部(42413); 发(42136); 创(40888); 课题(39768); 科研(38417); 创新(38098); 计划(37365); 大学(36182)

期刊: 济(103684); 经济(103684); 研究(75904); 学报(48491); 中国(47374); 科学(43363); 农(42419); 管理(36699); 大学(35231); 学学(33070); 财(31593); 教育(30740); 农业(29913); 技术(22468); 融(18181); 金融(18181); 业经(17479); 图书(16367); 业(15792); 财经(15756); 经济研究(15696); 科技(14559); 资源(13982); 问题(13863); 理论(13380); 经(13247); 版(13217); 业大(12601); 实践(12593); 践(12593)

全选本页取消本页

共检索到379497条记录

发布时间倒序

发布时间倒序
相关度优先

文献计量分析

结果分析(前20)
结果分析(前50)
结果分析(前100)
结果分析(前200)
结果分析(前500)

不同特征对文本聚类效果的比较研究——以新闻文本为例

[期刊] 情报理论与实践 [作者] 张旭孙玉伟成颖

[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003—2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。

关键词： TF-IDF Word2Vec Doc2Vec 文本聚类比较研究聚类分析

基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究

[期刊] 情报学报 [作者] 吴江侯绍新靳萌萌胡忠义

随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区"甜蜜家园"进行研究。本文利用LDA(L

关键词：在线医疗社区 LDA模型特征提取文本分类用户聚类

一种基于特征词聚类的文本分类方法

[期刊] 情报理论与实践 [作者] 伍建军康耀红

本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。

关键词：特征词聚类文本分类相似度计算

Stemming和Lemmatization对英文文本聚类的影响研究

[期刊] 情报理论与实践 [作者] 韩普王东波路高飞

词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。

关键词：词干化词形还原文本聚类信息检索

基于LSI理论的文本自动聚类研究

[期刊] 图书情报工作 [作者] 常娥

结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。

关键词：文本聚类 LSI模型 N-gram算法 K-means算法

不同特征下的学术文本结构功能自动识别研究

[期刊] 情报学报 [作者] 王东波高瑞卿叶文豪周鑫朱丹浩

随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。

关键词：文本分类条件随机场篇章结构深度学习

基于典籍文本的农作物时间分布及演化特征研究——以《食货志》为例

[期刊] 图书情报工作 [作者] 崔斌王东波黄水清

[目的/意义]我国农作物种植历史悠久,分析古代农作物的时间分布与发展演化情况对优化现代农业种植结构具有重要意义。[方法/过程]提出一套深入典籍文本内容的农作物时间分布及演化特征分析方法流程,主要包括语料获取与数字化、分词与实体关系抽取、时间分布特征分析、演化特征分析4部分,并选取15本史书中的《食货志》文本进行实证分析。[结果/结论]基于《食货志》文本的分析结果得到历史学、经济学、文献学等多学科相关研究资料的佐证,验证了方法的可行性与有效性,可以为基于典籍文本的古代农作物时间分布及演化特征分析提供借鉴。但未来还需要在提高自动化水平、扩大研究样本、细化事件类型等方面进一步优化方法流程。

关键词：实体关联数字人文食货志农作物可视化

基于网络文本的森林康养旅游游客情感特征研究——以资溪县为例

[期刊] 特区经济 [作者] 范恒王凯彭燕

本文采用内容分析法，以江西资溪县为例，对森林康养旅游游客情感特征进行分析。以2020年1月至2021年12月为时间区间，利用爬虫软件从去哪儿、马蜂窝、同程旅行、携程四大旅游网站抓取目标文本，通过软件ROST Content Mining 6对文本数据进行分析，梳理出资溪县森林康养旅游发展中遇到的问题。研究表明:游客积极情感占主导地位，消极情感所占比例较小，积极情感强度以中度和高度为主，消极情感以一般和中度为主。为进一步增加游客积极情感、削弱游客消极情感，资溪县应从游客体验、产业体系、市场监管、管理制度与专业人才五方面采取改进措施。

关键词：网络文本森林康养情感特征资溪县

中美档案征集政策文本的比较研究

[期刊] 档案学通讯 [作者] 张敏王小梅

档案征集政策对于引领档案征集工作走向成熟和完善起着至关重要的作用。通过中美档案征集政策文本构成要素的比较分析,可以看出美国的档案征集政策文本自成体系,逻辑严密,内容详细,具有很强的说服力和实操性。而我国档案征集政策文本则出现诸多盲点,尤其是利用基础和征集焦点的缺乏,难免使档案征集工作陷入盲目征集和零散征集的境地。针对我国档案征集政策文本的缺陷,简单的修改政策文本是不够的,需要遵循科学的档案征集政策的制定方法,在优化现有档案征集项目的同时形成完善的档案征集政策。

关键词：综合档案馆档案征集美国

基于粒子群的模糊C均值文本聚类算法研究

[期刊] 图书情报工作 [作者] 高劲松张俊丽

利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。

关键词：模糊C均值粒子群文本聚类

基于多重文本关系图中clique子团聚类的主题识别方法研究

[期刊] 情报学报 [作者] 郭红梅孔贝贝张智雄

在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基

关键词： clique子团多重文本关系文本主题识别

基于关键词的学术文本聚类集成研究

[期刊] 情报学报 [作者] 张颖怡章成志陈果

文本聚类是一种无监督且高效的文本类别划分方法。从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一。在学术文本聚类研究中,主要使用单一的聚类方法。目前,一部分提升聚类性能的方法被提出,聚类集成是其中之一。因此,根据聚类集成思想,本文开展了基于关键词的学术文本聚类研究。为分析聚类集成在学术文本聚类中的有效性,本文比较了非集成聚类算法与聚类集成算法的性能。同时,为分析关键词对聚类集成性能的影响,本文分析了不同关键词抽取方法和不同关键词个数下学术文本的聚类结果。实验结果表明,聚类集成算法能够提升学术文本聚类的性能。其中,当使用TextRank作为关键词抽取方法时,学术文本聚类结果较佳;随着关键词个数的增加,学术文本类别划分性能随之提升。

关键词：抽取文本聚类主题划分聚类集成

基于语义相关度的中文文本聚类方法研究

[期刊] 情报理论与实践 [作者] 杜坤刘怀亮王帮金

［目的／意义］在基于向量空间模型的文本聚类中，文本相似度计算忽略特征项间语义关联，针对此问题，提出一种改进的语义文本相似度计算方法。［方法／过程］新方法利用维基百科知识库计算语义相关度，结合特征项在文本中的表示权重，构造文本相似度语义加权因子，并进行Ｋ－ｍｅａｎｓ文本聚类实验。［结果／结论］与传统的余弦相似度相比，改进后的语义文本相似度应用在文本聚类上，能有效提高聚类的准确度。［局限］语义相关度的计算没有对词语进行消歧处理。

关键词：维基百科语义相关度文本相似度文本聚类

中文文本聚类常用停用词表对比研究

[期刊] 数据分析与知识发现 [作者] 官琴邓三鸿王昊

【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素

关键词：文本聚类停用词 K-means

基于大数据岗位需求的文本聚类研究

[期刊] 数据分析与知识发现 [作者] 刘睿伦叶文豪高瑞卿唐梦嘉王东波

【目的】对大数据工作岗位需求文本进行挖掘,帮助大数据企业更精准地定位所需人才。【方法】抽取招聘网站上2017年第一季度关于"大数据"的工作岗位信息,使用TF-IDF并结合Word2Vec和K-means实现基于语义的聚类,并利用轮廓系数方法获取最佳聚类效果。【结果】利用抽取获得的实体对文本向量进行表达能够达到良好的聚类效果,最终将岗位需求文本分为工作能力要求、学历要求以及工作经验要求三类。【局限】各网站信息发布的格式不统一,数据清洗不够全面,对聚类效果产生影响;挖掘获取的招聘信息数据量不充足,使Word2

关键词：大数据岗位 Word2Vec K-means 轮廓系数

首页
下一页
尾页
第 页

文献操作() 导出元数据文献计量分析

全选

导出文件格式：WXtxt

作者：

删除

推荐搜索

系统聚类在英语外交新闻计量文体特征中的应用学科交叉研究热点聚类分析——以国内图书情报学和新闻传播学为例机器人写作论文新闻效果评价研究——以中国科学报社为例教育对文化消费的影响研究:以音乐消费为例川南不同退耕还竹林土壤团聚特征比较我国区域高技术产业发达程度与聚类特征比较研究——基于竞争力指标的评价融资模式对文化产业发展影响的实证研究——以文化类上市公司为例基于K-means聚类的期刊操控引用行为特征指标研究中国城镇居民的消费特征研究——基于因子聚类方法基于特征的时间序列聚类方法研究进展