- 年份
- 2024(3925)
- 2023(5749)
- 2022(4693)
- 2021(4090)
- 2020(3483)
- 2019(7700)
- 2018(7175)
- 2017(13620)
- 2016(6853)
- 2015(7813)
- 2014(7450)
- 2013(7310)
- 2012(6634)
- 2011(5876)
- 2010(6230)
- 2009(6132)
- 2008(5073)
- 2007(4500)
- 2006(4122)
- 2005(3833)
- 学科
- 济(26129)
- 经济(26108)
- 融(24629)
- 金融(24628)
- 银(21676)
- 银行(21666)
- 行(21125)
- 业(19471)
- 管理(17599)
- 企(16919)
- 企业(16919)
- 中国(14942)
- 方法(11461)
- 中国金融(10890)
- 数学(10110)
- 数学方法(9825)
- 制(9223)
- 财(9214)
- 地方(8046)
- 务(7120)
- 财务(7098)
- 财务管理(7088)
- 企业财务(6866)
- 学(6805)
- 业经(6756)
- 农(6440)
- 体(5435)
- 理论(5302)
- 农业(4918)
- 体制(4717)
- 机构
- 学院(94651)
- 大学(94339)
- 济(37713)
- 经济(36711)
- 中国(34088)
- 管理(33916)
- 研究(33379)
- 理学(28625)
- 理学院(28286)
- 管理学(27473)
- 管理学院(27322)
- 科学(21313)
- 京(20083)
- 财(19664)
- 中心(18383)
- 所(17011)
- 农(16356)
- 银(15795)
- 研究所(15602)
- 财经(15538)
- 银行(15261)
- 融(14825)
- 金融(14523)
- 行(14321)
- 江(14243)
- 经(14052)
- 业大(13883)
- 人民(12870)
- 农业(12845)
- 北京(12830)
- 基金
- 项目(65194)
- 科学(51391)
- 基金(48122)
- 研究(45070)
- 家(43005)
- 国家(42687)
- 科学基金(36571)
- 社会(28511)
- 社会科(27280)
- 社会科学(27272)
- 省(25472)
- 基金项目(24952)
- 自然(24408)
- 自然科(23909)
- 自然科学(23906)
- 自然科学基金(23442)
- 划(21784)
- 资助(20365)
- 教育(19707)
- 编号(17398)
- 重点(15512)
- 发(14431)
- 成果(14125)
- 创(13707)
- 部(13570)
- 科研(13093)
- 创新(12931)
- 计划(12865)
- 国家社会(12336)
- 课题(12207)
共检索到150043条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报杂志
[作者]
李航 唐超兰 杨贤 沈婉婷
[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档集整体的重要性的关键词抽取方法。[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性、位置特征计算词语对单文档中的重要性。然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合。最后,利用三个特征计算得到词语的综合权值来改进TextRank模
[期刊] 数据分析与知识发现
[作者]
夏天
【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点的覆盖和位置因素,计算节点之间的随机跳转概率,生成转移矩阵,最终通过迭代计算获得节点的重要性得分,选取前TopN个词语生成关键词。【结果】当TopN≤7时,词向量聚类加权方法均优于对比方法;TopN=3时,F值取得最大值,比先前最优结果增量提升了3.374%;Top
[期刊] 情报学报
[作者]
俞琰 尚明杰 赵乃瑄
由于目前专利关键词抽取主要依据通用文本关键词抽取方法,没有充分考虑专利特征的问题,本文提出基于专利权利要求特征驱动的专利关键词抽取方法。该方法主要包括预处理、基于最长公共子串的候选关键词选取、基于信息增益比的冗余候选关键词去除和融入特指度的候选关键词权重等四个主要步骤。真实专利数据实验结果表明,本文提出的权利要求特征驱动的专利关键词抽取方法具有可行性与有效性。
关键词:
抽取 权利要求特征 TF-IDF
[期刊] 情报理论与实践
[作者]
张建娥
文章通过分析传统关键词提取方法的特点和存在的问题,提出基于多特征融合的中文文本关键词提取方法。该方法通过融合中文文本词语的频率、关联度、词性以及位置多种特征,有效避免了传统关键词提取方法产生的偏差。实验结果表明,该方法在不同测试集上与传统方法相比关键词提取的平均召回率均得到明显提升。
关键词:
中文文档 特征融合 关键词
[期刊] 情报理论与实践
[作者]
李有梅
In the field of automatic information processing,how to precisely describe the text's content has become a rather critical problem.The vector space presentation,which is widely applied at present,is used to approximately illustrate conceptions and meanings by extracting keywords from the text.
[期刊] 情报理论与实践
[作者]
徐文海 温有奎
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著。
关键词:
关键词抽取 向量空间模型 算法
[期刊] 情报理论与实践
[作者]
宋宇 罗准辰 真溱
科技文献间的引用关系把关系密切、具有相似主题的文献联系在一起。通过引用关系可以获得文献的引用背景信息。引用背景信息有助于对科技文献内容的理解。文章提出了一种基于引用关系构造引用背景信息,用来改进关键词自动抽取效果的方法,并通过实验验证了方法的有效性。
关键词:
自动抽取 关键词 科技文献 引用
[期刊] 数据分析与知识发现
[作者]
张琴 郭红梅 张智雄
【目的】为解决已有方法中单词特征表示不具有语义信息这一问题,对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征,利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验,并选出代表全部特征的有效特征子集。【结果】使用全部特征时,决策树算法的准确率达到0.48,关系抽取效果最佳,Member-Collection(E_2,E_1)类型关系的F_1值达到0.70,特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高,
关键词:
关系抽取 词嵌入表示 Word2Vec
[期刊] 清华大学学报(自然科学版)
[作者]
周炫余 刘林 卢笑 李璇 张思敏
关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任务特性进行领域适配和语义表征能力有限的问题。该文提出一种多模态信息增强表示的中文关键词抽取方法MIEnhance-KPE,首先引入Adapter层将偏旁和部首信息集成到预训练语言模型层中,得到领域自适应的文本表示;其次利用卷积神经网络提取汉字的图像特征,同时使用交叉注意力机制融合汉字图像特征和文本特征,实现文本语义表示增强;最后利用CRF(conditional random field)模型进行序列标注任务,并计算词语的位置词频权重对其进行排序获得关键词。与目前十分先进的关键词抽取方法KIEMP相比, MIEnhance-KPE在公开的中文科学文献数据集和自构建的中文教育关键词抽取数据集上的F值分别提升了15.71%和3.40%;消融实验结果表明,所提出的领域自适应模块和视觉语义增强表示模块均能有效提高关键词抽取的准确性。MIEnhance-KPE的提出有助于教育研究者精准了解教育发展趋势,促进教育理论和实践的创新。
[期刊] 图书馆
[作者]
张孝飞
文章通过分析传统关键词提取方法的特点及不足,提出了融合多元特征的中文网页关键词提取方法。该方法既综合了中文网页文档词语的词频、词性、词长以及词位置等特征,又考虑了文档中出现的同义词、组合词现象的关键词评分,有效提高了传统关键词提取算法的精度。实验结果表明该算法优于传统方法,在网络情报监测中具有较大应用价值。
关键词:
提取 多元特征 同义词 组合词
[期刊] 情报理论与实践
[作者]
张海潮 王昊 唐慧慧 薛蔚
[目的/意义]探讨中文社会科学领域题名关键词最佳抽取模型,用以获取引文题名关键词,完成附加关键词的抽取。[方法/过程]文章以2014年CSSCI全部文献的题名为语料,运用条件随机场(CRFs),通过探究不同特征(或集合)和参数对关键词识别的影响,构建字角色标注的题名关键词标引模型,最终迁移应用到引文题名。[结果/结论]通过实验,获得最佳题名关键词标引模型,F1值可达到52.03%,每篇原文可获得附加关键词9个左右。在恰当的特征组合与参数下,构建的标引模型可以有效完成附加关键词的获取工作。[局限]语料中的每个关键词平均出现两次可能会影响机器学习的效果,原文与引文题名的差异可能影响模型的适用性,此外模型得到的附加关键词尚需进一步斟酌选择。
[期刊] 情报学报
[作者]
方龙 李信 黄永 陆伟
当前的关键词自动提取研究大多基于候选词的词频、文档频率等统计信息,往往忽略了侯选词所在的学术文本的内在结构,导致关键词提取的效果不佳。本文将学术文本看作是5个结构功能域的集合,提出了融合学术文本结构功能特征的多特征组合提取方法,并利用学术文本的章节标题对其结构功能进行识别,然后通过SVM二分类和LambdaMART学习排序算法分别在计算机语言学领域的文献集上进行了实现。实验结果表明,本文提出的组合特征方法相比基准特征在关键词提取的效果上取得了较大的提升,尤其在分类实验中准确率的相对提升上达到10.75%,
[期刊] 情报理论与实践
[作者]
宋宇 真溱
文章把关键词自动抽取拆分为3个阶段的问题:如何进行文本预处理;怎样获得关键词候选词集;该采用什么方法从候选词集中筛选出关键词。首先针对不同阶段的问题,详细地介绍现有的典型方法。然后介绍了关键词自动抽取技术最新的研究进展,并分析了关键词自动抽取技术的发展趋势。最后指出了目前关键词自动抽取技术研究的不足之处。
关键词:
关键词 自动抽取 研究进展 综述
[期刊] 情报理论与实践
[作者]
王志宏 过弋
[目的/意义]专利关键词是对专利核心内容的概括,高效准确地抽取专利关键词不仅可以辅助人们对专利的快速查找,同时对专利分类、聚类、翻译等具有重要意义。[方法/过程]提出了"关键词在关键句中"的关键词抽取新思路。首先构建了一个联合句网络语义图特征和启发式规则特征的专利摘要句排序模型,然后仅选择Top-KS%的句子参与关键词计算,同时将句子语义权重参数引入到关键词权重计算过程中,从而使得句子的重要性传递到句中的词上。[结果/结论]在真实中文专利数据集中实验表明,从中文专利中选择适当比例关键句参与关键词抽取计算,相较于传统关键词抽取算法F值提升了6%~13%左右,有效地降低原始文档的噪声数据,提升了关键词抽取的效果。
[期刊] 情报学报
[作者]
王晓宇 王芳
鉴于关键词对大规模文献检索和文本内容分析的基础作用,本文提出了一种基于语义文本图的无监督关键词抽取算法,重点对传统基于图(graph-based)方法中的文本图构建和词加权方式进行改进。为了使文本图保留更多的语义和结构信息,算法根据单词在句子中的语义依存关系,生成由概念连接、等价隶属、功能属性和修饰限定四种属性边构成的语义文本图,省去传统图生成方法中所需要的窗口长度参数设定。在此基础上,本文提出融合关键词位置信息、概念层级和连接强度的词权重计算方法,并对词语的重要性排序,最终选择高得分节点构成摘要文本的关键词集合。在四个开放语料上的实验结果显示,本文提出的方法抽词效果优于其他三个同类baseline算法,F1值最高为0.570。
关键词:
文本图 关键词抽取 词加权 句法解析
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除