- 年份
- 2024(1621)
- 2023(2457)
- 2022(2071)
- 2021(1745)
- 2020(1508)
- 2019(3369)
- 2018(3407)
- 2017(6140)
- 2016(3227)
- 2015(3708)
- 2014(3921)
- 2013(3984)
- 2012(3747)
- 2011(3467)
- 2010(3462)
- 2009(3088)
- 2008(3061)
- 2007(2801)
- 2006(2426)
- 2005(2347)
- 学科
- 业(14835)
- 济(14569)
- 经济(14559)
- 管理(13555)
- 企(13243)
- 企业(13243)
- 技术(10617)
- 方法(6642)
- 技术管理(5870)
- 数学(5225)
- 数学方法(5137)
- 学(3755)
- 中国(3655)
- 理论(3529)
- 农(3337)
- 业经(3296)
- 财(2808)
- 农业(2645)
- 新技术(2557)
- 高新(2550)
- 高新技术(2550)
- 和(2486)
- 贸(2316)
- 贸易(2316)
- 易(2261)
- 划(2236)
- 环境(2231)
- 教学(2029)
- 制(2012)
- 融(1958)
- 机构
- 大学(53851)
- 学院(52208)
- 济(21793)
- 管理(21746)
- 经济(21311)
- 研究(18964)
- 理学(18733)
- 理学院(18534)
- 管理学(18208)
- 管理学院(18100)
- 中国(13507)
- 京(12186)
- 科学(11933)
- 所(9981)
- 研究所(9084)
- 农(8546)
- 中心(8429)
- 财(8317)
- 江(8131)
- 业大(8106)
- 北京(7817)
- 技术(7544)
- 范(7172)
- 师范(7091)
- 院(6711)
- 财经(6698)
- 农业(6697)
- 经济学(6264)
- 经(6164)
- 州(6079)
- 基金
- 项目(35301)
- 科学(27973)
- 研究(25552)
- 基金(25449)
- 家(22573)
- 国家(22413)
- 科学基金(19222)
- 社会(15957)
- 社会科(15231)
- 社会科学(15224)
- 省(13672)
- 基金项目(13509)
- 自然(12567)
- 自然科(12292)
- 自然科学(12291)
- 自然科学基金(12068)
- 教育(11805)
- 划(11691)
- 编号(10171)
- 资助(9987)
- 创(8376)
- 成果(8101)
- 重点(8080)
- 部(8025)
- 创新(7880)
- 发(7569)
- 教育部(6766)
- 国家社会(6763)
- 课题(6684)
- 项目编号(6605)
共检索到80617条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
宋宇 真溱
文章把关键词自动抽取拆分为3个阶段的问题:如何进行文本预处理;怎样获得关键词候选词集;该采用什么方法从候选词集中筛选出关键词。首先针对不同阶段的问题,详细地介绍现有的典型方法。然后介绍了关键词自动抽取技术最新的研究进展,并分析了关键词自动抽取技术的发展趋势。最后指出了目前关键词自动抽取技术研究的不足之处。
关键词:
关键词 自动抽取 研究进展 综述
[期刊] 情报学报
[作者]
方龙 李信 黄永 陆伟
当前的关键词自动提取研究大多基于候选词的词频、文档频率等统计信息,往往忽略了侯选词所在的学术文本的内在结构,导致关键词提取的效果不佳。本文将学术文本看作是5个结构功能域的集合,提出了融合学术文本结构功能特征的多特征组合提取方法,并利用学术文本的章节标题对其结构功能进行识别,然后通过SVM二分类和LambdaMART学习排序算法分别在计算机语言学领域的文献集上进行了实现。实验结果表明,本文提出的组合特征方法相比基准特征在关键词提取的效果上取得了较大的提升,尤其在分类实验中准确率的相对提升上达到10.75%,
[期刊] 情报理论与实践
[作者]
宋宇 罗准辰 真溱
科技文献间的引用关系把关系密切、具有相似主题的文献联系在一起。通过引用关系可以获得文献的引用背景信息。引用背景信息有助于对科技文献内容的理解。文章提出了一种基于引用关系构造引用背景信息,用来改进关键词自动抽取效果的方法,并通过实验验证了方法的有效性。
关键词:
自动抽取 关键词 科技文献 引用
[期刊] 情报理论与实践
[作者]
王志宏 过弋
[目的/意义]专利关键词是对专利核心内容的概括,高效准确地抽取专利关键词不仅可以辅助人们对专利的快速查找,同时对专利分类、聚类、翻译等具有重要意义。[方法/过程]提出了"关键词在关键句中"的关键词抽取新思路。首先构建了一个联合句网络语义图特征和启发式规则特征的专利摘要句排序模型,然后仅选择Top-KS%的句子参与关键词计算,同时将句子语义权重参数引入到关键词权重计算过程中,从而使得句子的重要性传递到句中的词上。[结果/结论]在真实中文专利数据集中实验表明,从中文专利中选择适当比例关键句参与关键词抽取计算,相较于传统关键词抽取算法F值提升了6%~13%左右,有效地降低原始文档的噪声数据,提升了关键词抽取的效果。
[期刊] 情报理论与实践
[作者]
李有梅
In the field of automatic information processing,how to precisely describe the text's content has become a rather critical problem.The vector space presentation,which is widely applied at present,is used to approximately illustrate conceptions and meanings by extracting keywords from the text.
[期刊] 数据分析与知识发现
[作者]
夏天
【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点的覆盖和位置因素,计算节点之间的随机跳转概率,生成转移矩阵,最终通过迭代计算获得节点的重要性得分,选取前TopN个词语生成关键词。【结果】当TopN≤7时,词向量聚类加权方法均优于对比方法;TopN=3时,F值取得最大值,比先前最优结果增量提升了3.374%;Top
[期刊] 情报理论与实践
[作者]
白如江 杨振瑜 王效岳
文章利用KeyGraph算法来对搜索引擎中的长句查询进行处理,抽取其中的关键主题,然后再在KL-divergency、BM25、TFIDF三种不同的检索模型上分别进行实验。研究发现经过KeyGraph关键词抽取技术处理过的长句查询检索效果得到了明显提高,并且在KL-divergency语言模型上的检索效果最好,有效地提高了长句查询的准确率和相关文档的排序。
关键词:
长句查询 检索模型 关键词
[期刊] 情报学报
[作者]
俞琰 尚明杰 赵乃瑄
由于目前专利关键词抽取主要依据通用文本关键词抽取方法,没有充分考虑专利特征的问题,本文提出基于专利权利要求特征驱动的专利关键词抽取方法。该方法主要包括预处理、基于最长公共子串的候选关键词选取、基于信息增益比的冗余候选关键词去除和融入特指度的候选关键词权重等四个主要步骤。真实专利数据实验结果表明,本文提出的权利要求特征驱动的专利关键词抽取方法具有可行性与有效性。
关键词:
抽取 权利要求特征 TF-IDF
[期刊] 情报理论与实践
[作者]
徐文海 温有奎
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著。
关键词:
关键词抽取 向量空间模型 算法
[期刊] 情报杂志
[作者]
李航 唐超兰 杨贤 沈婉婷
[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档集整体的重要性的关键词抽取方法。[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性、位置特征计算词语对单文档中的重要性。然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合。最后,利用三个特征计算得到词语的综合权值来改进TextRank模
[期刊] 情报理论与实践
[作者]
高强 游宏梁
作为信息抽取的重要组成部分,事件抽取的研究具有广阔的应用前景和巨大的现实意义。文章阐述事件及事件抽取的基本概念,简单介绍事件抽取的发展历史,并从元事件抽取和主题事件抽取两个方面出发,详细介绍主要的研究方法与研究现状,总结事件抽取发展所面临的挑战,并在此基础上展望事件抽取的研究趋势。
关键词:
事件抽取 信息抽取 信息技术 综述
[期刊] 情报学报
[作者]
王晓宇 王芳
鉴于关键词对大规模文献检索和文本内容分析的基础作用,本文提出了一种基于语义文本图的无监督关键词抽取算法,重点对传统基于图(graph-based)方法中的文本图构建和词加权方式进行改进。为了使文本图保留更多的语义和结构信息,算法根据单词在句子中的语义依存关系,生成由概念连接、等价隶属、功能属性和修饰限定四种属性边构成的语义文本图,省去传统图生成方法中所需要的窗口长度参数设定。在此基础上,本文提出融合关键词位置信息、概念层级和连接强度的词权重计算方法,并对词语的重要性排序,最终选择高得分节点构成摘要文本的关键词集合。在四个开放语料上的实验结果显示,本文提出的方法抽词效果优于其他三个同类baseline算法,F1值最高为0.570。
关键词:
文本图 关键词抽取 词加权 句法解析
[期刊] 图书情报工作
[作者]
俞琰 鞠鹏 尚明杰
[目的/意义]针对目前专利关键词抽取算法评价中主要采用抽取的关键词与专家人工标注关键词进行匹配存在的问题,提出一种基于信息增益与相似度的专利关键词抽取算法评价模型。[方法/过程]提出的评价模型从内部和外部两个层面评估专利关键词抽取算法的准确性。其中,内部评价模型度量待评价算法抽取的每个关键词的信息增益,以评估被抽取的关键词的新颖性与创造性;外部评价模型使用待评价算法抽取的关键词集表示专利,计算相关专利的相似度,衡量算法抽取的关键词描述专利主题的有效性。[结果/结论]通过评价模型有效性验证实验与评价模型应用实证研究,结果表明提出的基于信息增益与相似度的评价模型具有可行性与有效性。
关键词:
专利 关键词抽取 评价 信息增益 相似度
[期刊] 情报理论与实践
[作者]
张海潮 王昊 唐慧慧 薛蔚
[目的/意义]探讨中文社会科学领域题名关键词最佳抽取模型,用以获取引文题名关键词,完成附加关键词的抽取。[方法/过程]文章以2014年CSSCI全部文献的题名为语料,运用条件随机场(CRFs),通过探究不同特征(或集合)和参数对关键词识别的影响,构建字角色标注的题名关键词标引模型,最终迁移应用到引文题名。[结果/结论]通过实验,获得最佳题名关键词标引模型,F1值可达到52.03%,每篇原文可获得附加关键词9个左右。在恰当的特征组合与参数下,构建的标引模型可以有效完成附加关键词的获取工作。[局限]语料中的每个关键词平均出现两次可能会影响机器学习的效果,原文与引文题名的差异可能影响模型的适用性,此外模型得到的附加关键词尚需进一步斟酌选择。
[期刊] 情报理论与实践
[作者]
钱爱兵 江岚
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。
关键词:
词频 逆文档频率 新闻网页 关键词抽取
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除