- 年份
- 2024(8307)
- 2023(12088)
- 2022(10731)
- 2021(10324)
- 2020(8584)
- 2019(20004)
- 2018(19994)
- 2017(38812)
- 2016(21234)
- 2015(24107)
- 2014(24347)
- 2013(23761)
- 2012(21648)
- 2011(19439)
- 2010(19586)
- 2009(17890)
- 2008(17436)
- 2007(15303)
- 2006(13268)
- 2005(11526)
- 学科
- 济(87630)
- 经济(87538)
- 管理(60684)
- 业(55482)
- 企(47165)
- 企业(47165)
- 方法(43112)
- 数学(37737)
- 数学方法(37011)
- 农(21207)
- 中国(20878)
- 地方(19621)
- 学(19418)
- 财(18727)
- 业经(18198)
- 理论(15968)
- 贸(14409)
- 贸易(14401)
- 和(14155)
- 农业(14090)
- 易(13926)
- 制(13650)
- 技术(13148)
- 环境(13032)
- 务(12100)
- 财务(12023)
- 财务管理(11998)
- 划(11907)
- 教育(11624)
- 银(11336)
- 机构
- 大学(301511)
- 学院(300101)
- 管理(121458)
- 济(112455)
- 经济(109781)
- 理学(105976)
- 理学院(104777)
- 管理学(102520)
- 管理学院(101997)
- 研究(96419)
- 中国(70827)
- 京(64820)
- 科学(63433)
- 财(49449)
- 所(48602)
- 农(46340)
- 业大(45736)
- 研究所(44588)
- 中心(43986)
- 江(42763)
- 范(41045)
- 北京(40871)
- 师范(40681)
- 财经(40400)
- 经(36625)
- 农业(36365)
- 州(35587)
- 院(35395)
- 技术(33126)
- 师范大学(32846)
- 基金
- 项目(209628)
- 科学(164425)
- 研究(151777)
- 基金(150975)
- 家(131555)
- 国家(130491)
- 科学基金(112424)
- 社会(93240)
- 社会科(88290)
- 社会科学(88263)
- 省(82551)
- 基金项目(80120)
- 自然(75026)
- 自然科(73306)
- 自然科学(73291)
- 自然科学基金(71901)
- 教育(70605)
- 划(69568)
- 资助(63525)
- 编号(62902)
- 成果(50483)
- 重点(46692)
- 部(45257)
- 发(44065)
- 课题(43105)
- 创(43090)
- 创新(40140)
- 科研(40094)
- 大学(38907)
- 项目编号(38754)
- 期刊
- 济(120398)
- 经济(120398)
- 研究(84210)
- 中国(54296)
- 学报(48666)
- 科学(44781)
- 管理(43973)
- 农(41544)
- 教育(36808)
- 大学(36574)
- 财(35945)
- 学学(34171)
- 农业(29432)
- 技术(28184)
- 融(21482)
- 金融(21482)
- 业经(19993)
- 经济研究(18826)
- 财经(18643)
- 图书(18048)
- 经(15813)
- 科技(15420)
- 问题(15181)
- 技术经济(15056)
- 理论(15045)
- 业(15016)
- 统计(14631)
- 版(14123)
- 实践(14020)
- 践(14020)
共检索到426085条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 图书情报工作
[作者]
俞琰 赵乃瑄
[目的 /意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法 /过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果 /结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。
关键词:
专利文本 主题建模 领域停用词 自动选取
[期刊] 数据分析与知识发现
[作者]
官琴 邓三鸿 王昊
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素
关键词:
文本聚类 停用词 K-means
[期刊] 情报科学
[作者]
曲靖野 陈震 胡轶楠
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的主题演化信息;在同
[期刊] 情报理论与实践
[作者]
钟伟金
文章以学科文献为语料库,构建基于关键词、主题词、副主题词的大型共现词网,分别从同义词、层级关系、相关关系及知识推导四方面实现本体的改造过程。根据相关词标引原理,提炼出"同义相斥、相关相吸"的共现理论,进行同义异形关键词及对应主题词的识别;以《中国分类主题词表》作为工具,实现共现词网主题词的层级关系的标识;以副主题词的组配规则,实现主题词词性的及知识的推导。最终将共现词网改造成集自然语言(关键词)及控制语言(主题词)于一体的领域本体。
关键词:
词共现 领域本体 关键词 自动构建
[期刊] 图书情报工作
[作者]
张培晶 宋蕾
在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。
关键词:
LDA 概率主题模型 微博 主题建模
[期刊] 情报学报
[作者]
韩客松 王永成 滕伟
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。
关键词:
Web页面文本 主题抽取 加权
[期刊] 情报理论与实践
[作者]
朱恒民 马静 黄卫东
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。
关键词:
主题抽取 领域本体 文本挖掘
[期刊] 图书馆杂志
[作者]
阮光册 夏磊
本文将共现分析应用于非结构化文本文件,挖掘文本主题的语义关联。由于文本文献不同于科技文献,缺少关键字等描述信息,本文引入主题模型对文本进行语义降维,生成的主题词作为共词分析的研究对象。实验发现中频主题词能更好地反映文本的主题特征,为此,本文结合齐普夫定律和同词频理论选取中频主题词,通过共词分析识别语义关联,并采用K-means聚类算法实现主题词的聚类。本文以"创新创业"相关新闻文本进行实验,实现文本集主题词的聚类,通过实验对比分析,本文的方法能够更好地体现文本主题的语义联系。
[期刊] 图书情报工作
[作者]
贾君枝 张宁
指出主题词表和分众分类系统作为两种不同的信息组织系统,在网络资源组织中发挥着各自的作用。以教育领域的主题词及Delicious系统中标签为研究对象,分析主题词在标签系统中的应用状况,发现有57%的主题词被作为标签进行标引,通过统计主题词、标签的频率、字符长度、语言特征等,明确用户标引的特征,依此提出筛选标签作为主题词候选词汇的标准。
关键词:
表网络资源组织
[期刊] 情报理论与实践
[作者]
白振田 侯汉清
本文借鉴了关键词轮排原理,结合相关统计模型,从正反两个方面对原始抽词词典进行压缩和优选,以达到降维和准确表达主题的目的;并基于海量新闻文本进行了自动分类测试,结果表明该约简算法在构造核心关键词词典方面是可行的。
关键词:
抽词词典 关键词轮排 自动分类 算法
[期刊] 情报学报
[作者]
王汀 冀付军
在进行大规模领域本体的构建时,基于手工方式的构建模式效率较低并且可行性较差。为了解决大规模领域本体的自动化构建问题,提出了一种领域主题词表与网络百科知识库相融合的两阶段领域本体自动化构建方案。第一阶段,进行主题词表至本体的粗映射,形成领域粗糙本体;第二阶段,采用改进的同义词词林与编辑距离相似度相结合的方式对百科知识与粗糙本体进行自动融合、自适应调整和扩充,形成含有丰富语义信息的、良构的领域本体。基于两阶段方法自动化地构建了大规模中国电子政务领域本体(Chinese E-Gov Ontology),从而验证
[期刊] 情报理论与实践
[作者]
杜慧平 朱晓霞 何琳
提出了一套适用于网络环境中信息资源组织用领域叙词表自动编制方案,系统地阐述了自动编制过程中的步骤,并介绍了其中的关键技术,包括词表收词选词原则与方法,等同关系、等级关系和相关关系的自动识别方法和技术。最后指出,只有不断地维护和更新才能保证词表具有永久的生命力。
关键词:
网络环境 叙词表 信息抽取 信息组织
[期刊] 财会通讯
[作者]
郑小荣 王可欣
重大公共工程对国家政治、经济、社会、环境、安全等方面具有重要影响,党和国家一贯重视对重大公共工程项目审计及相关领域的信息公开。本文以2004—2018年间审计署发布的30篇重大公共工程项目审计结果公告为研究对象,对相关审计结果公告类型、公告内容、文本规模、信息含量和用词风格等情况进行分析。研究表明:重大公共工程项目审计结果公告存在发布具有较大的随意性、发布时效性普遍滞后、公告内容不规范、信息含量偏低等问题。为此,应从法律层面完善重大公共工程项目审计结果公告机制、明确规定审计结果公告内容和范围、建立审计信息沟通与反馈机制。
[期刊] 情报理论与实践
[作者]
陈斌 马静
[目的/意义]为了弥补LDA模型建模过程中未考虑到网络文本中文档关注度和质量度这一因素,并增强结果的语义可解释性和主题表示能力,文章提出了一种热度加权的HLDA-IDF的网络文本主题挖掘模型。[方法/过程]本文首先是给出了较为准确的热度定义,并对LDA模型进行热度加权,构建出了HLDA模型,再依据词汇的主题表示能力存在差异这一实际情况,引入TF-IDF算法并改进,构建出HLDA-IDF模型,最后利用实际论坛数据进行实验验证。[结果/结论]实验结果表明该模型的结果语义可解释性和主题表示能力较强。
关键词:
热度 模型 主题挖掘 网络文本 文本挖掘
[期刊] 情报理论与实践
[作者]
靳从 樊春丽 杨静宇
主题词自动标引中的知识处理方法靳从樊春丽杨静宇(南京理工大学江苏210094)AbstractThispaperfirstpointsoutthenecessityofknowledgeprocessingintheChinesewordsegmen...
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除