- 年份
- 2024(3107)
- 2023(4661)
- 2022(4071)
- 2021(4061)
- 2020(3561)
- 2019(8327)
- 2018(8516)
- 2017(16243)
- 2016(9009)
- 2015(10398)
- 2014(10513)
- 2013(9920)
- 2012(9089)
- 2011(8123)
- 2010(8647)
- 2009(8011)
- 2008(8130)
- 2007(7341)
- 2006(6482)
- 2005(5685)
- 学科
- 济(35757)
- 经济(35721)
- 管理(25998)
- 业(23282)
- 企(20605)
- 企业(20605)
- 方法(20069)
- 数学(17786)
- 数学方法(17196)
- 中国(8526)
- 理论(8392)
- 学(8175)
- 农(8131)
- 财(7215)
- 业经(6988)
- 教学(6226)
- 贸(6150)
- 贸易(6143)
- 制(6008)
- 易(5977)
- 技术(5873)
- 和(5411)
- 地方(5290)
- 农业(5010)
- 策(4976)
- 银(4826)
- 银行(4818)
- 划(4815)
- 务(4746)
- 财务(4710)
- 机构
- 学院(127601)
- 大学(127264)
- 管理(49194)
- 济(45413)
- 经济(44221)
- 理学(42310)
- 理学院(41849)
- 管理学(40458)
- 研究(40437)
- 管理学院(40247)
- 中国(30924)
- 京(28145)
- 科学(27382)
- 农(21491)
- 所(21286)
- 财(20299)
- 业大(20258)
- 江(19640)
- 研究所(19335)
- 中心(19332)
- 北京(17776)
- 农业(17030)
- 范(16770)
- 师范(16569)
- 技术(16502)
- 财经(16067)
- 州(15993)
- 院(14521)
- 经(14464)
- 师范大学(13024)
- 基金
- 项目(84189)
- 科学(65412)
- 基金(59512)
- 研究(59172)
- 家(52756)
- 国家(52342)
- 科学基金(44804)
- 社会(34657)
- 省(34119)
- 社会科(32806)
- 社会科学(32792)
- 自然(31104)
- 自然科(30502)
- 自然科学(30496)
- 基金项目(30390)
- 自然科学基金(29892)
- 教育(29130)
- 划(28721)
- 资助(26617)
- 编号(24840)
- 成果(20373)
- 重点(19231)
- 部(17640)
- 创(17515)
- 课题(17503)
- 发(17070)
- 计划(16339)
- 创新(16326)
- 科研(16135)
- 大学(15655)
共检索到189250条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 现代情报
[作者]
廖列法 勒孚刚 朱亚兰
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。
[期刊] 情报学报
[作者]
吴江 侯绍新 靳萌萌 胡忠义
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区"甜蜜家园"进行研究。本文利用LDA(L
[期刊] 现代情报
[作者]
廖列法 勒孚刚
[目的 /意义]运用概率主题模型全面研究专利文献主题演化,分析专利技术发展过程及趋势。[方法/过程]LDA模型按时间窗口对专利文本建模,困惑度确定最优主题数,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号度量技术主题强度,最后实现主题强度、主题内容和技术主题强度3方面的演化研究。[结果 /结论]实验结果表明:该方法能够深入挖掘专利文献的主题,可以较好地分析专利技术随时间的演化规律,帮助相关从业人员了解专利技术的演化过程及趋势。
[期刊] 中南林业科技大学学报
[作者]
陈宇 许莉薇
为解决传统林业信息文本分类算法准确率低和正确率分布不均匀的问题,提出了一种基于高斯混合模型的林业信息文本分类算法。在阐述高斯混合模型和EM算法的基础上,使用TF-IDF方法计算林业信息文本特征值,对构造的林业信息文本特征矩阵降维,结合Kmeans算法,通过训练得到各类林业信息文本所对应的高斯混合模型的参数,构造分类器进行精准与快速分类。实验结果表明,该算法与神经网络分类方法、贝叶斯、决策树等常用分类算法相比,该算法有较高的准确率和实用性,为林业信息文本的分类研究开拓了新思路。
[期刊] 情报科学
[作者]
周源 刘怀兰 杜朋朋 廖岭
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。
[期刊] 情报理论与实践
[作者]
周瑛 刘政怡
本文利用前向神经网络的交叉覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。应用该算法对语料库中的文本进行实验,从实验结果来看,该算法在运行时间和精度上都取得了令人满意的结果。
关键词:
文本处理 算法/覆盖算法 文本分类
[期刊] 情报科学
[作者]
曲靖野 陈震 胡轶楠
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的主题演化信息;在同
[期刊] 图书情报工作
[作者]
张玉峰 何超
为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法—基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。
[期刊] 清华大学学报(自然科学版)
[作者]
贾旭东 王莉
文本序列中各单词的重要程度及其之间的依赖关系对于识别文本类别有重要影响。胶囊网络不能选择性关注文本中重要单词,并且由于不能编码远距离依赖关系,在识别具有语义转折的文本时有很大局限性。为解决上述问题,该文提出了一种基于多头注意力的胶囊网络模型,该模型能编码单词间的依赖关系、捕获文本中重要单词,并对文本语义编码,从而有效提高了文本分类任务的效果。结果表明:该文模型在文本分类任务中效果明显优于卷积神经网络和胶囊网络,在多标签文本分类任务上效果更优,能更好地从注意力中获益。
[期刊] 情报理论与实践
[作者]
张玉峰 何超
为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型。针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类。实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间。
关键词:
文本分类 潜在语义分析 支持向量机
[期刊] 数据分析与知识发现
[作者]
方小飞 黄孝喜 王荣波 谌志群 王小华
【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题
[期刊] 图书情报工作
[作者]
杨超 朱东华 汪雪锋 朱福进 衡晓帆
[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的"问题"与相应"解决方案"等问题。[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别"问题和解决方案"(P&S)模式,基于"bagofP&S"假设,构建基于"主语-行为-宾语"(subject-action-object,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析。[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势
[期刊] 图书情报工作
[作者]
吴红 伊惠芳 马永新 李昌
[目的/意义]改善现有LDA专利技术主题分析存在的辨识度低、可解释性弱和界限划分模糊问题,对于把握技术热点、追踪技术前沿具有重要意义。[方法/过程]将国际分类号IPC引入LDA专利主题分析中,将其作为技术词的语境,以二元组的WI(Word IPC)结构进行训练,构建WI-LDA模型,实现对专利文献主题的识别和分析。[结果/结论]通过中国石墨烯领域的实证研究及与传统LDA模型的对比研究证明,WI-LDA模型泛化能力较强,在专利技术主题分析上能有效降低主题的辨识难度,增加主题的可解释性,使文本主题划分更加清晰。
[期刊] 情报学报
[作者]
李湘东 丁丛 高凡
以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加权策略,在此基础上构建复合加权策略,使获取的特征词集既不向高频词倾斜,也更能代表书目信息的所属类别。将复合加权策略融合于LDA、提出一种基于复合加权LDA的书目信息分类方法。使用公开和自建的书目信息语料进行对比实验,验证和分析复合加权策略的有效性,实验显示本文提出的复合加权LDA分类方法的
[期刊] 情报理论与实践
[作者]
高金勇 徐朝军 冯奕竸
为了给教育研究和管理提供可靠的决策支持,对网络信息进行分类处理就成为了一种需要。鉴于TFIDF对短文本分类存在的缺陷,本文采用基于迭代的TFIDF算法对文本向量进行了优化。试验结果表明,基于迭代的TFIDF算法可以有效提高短文本文档分类的准确率。
关键词:
文本分类 网络资源 算法
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除