- 年份
- 2024(2940)
- 2023(4192)
- 2022(3453)
- 2021(3122)
- 2020(2701)
- 2019(5790)
- 2018(5696)
- 2017(10158)
- 2016(5310)
- 2015(6167)
- 2014(6174)
- 2013(6266)
- 2012(5954)
- 2011(5363)
- 2010(5418)
- 2009(4989)
- 2008(4849)
- 2007(4660)
- 2006(4090)
- 2005(3808)
- 学科
- 济(22613)
- 经济(22590)
- 业(21284)
- 管理(19337)
- 企(17745)
- 企业(17745)
- 技术(13917)
- 方法(10144)
- 数学(8682)
- 数学方法(8543)
- 技术管理(6989)
- 学(6818)
- 中国(6709)
- 农(6134)
- 财(5438)
- 农业(4799)
- 业经(4553)
- 贸(4079)
- 贸易(4078)
- 易(3993)
- 理论(3921)
- 新技术(3638)
- 高新(3632)
- 高新技术(3632)
- 和(3631)
- 制(3609)
- 融(3513)
- 金融(3513)
- 银(3446)
- 地方(3426)
- 机构
- 大学(86140)
- 学院(84905)
- 研究(34936)
- 济(33215)
- 经济(32456)
- 管理(30979)
- 理学(26285)
- 理学院(25992)
- 管理学(25364)
- 管理学院(25232)
- 中国(24962)
- 科学(24814)
- 农(21296)
- 京(20365)
- 所(19750)
- 研究所(18157)
- 农业(17223)
- 业大(16991)
- 中心(15195)
- 江(14039)
- 技术(13577)
- 财(13381)
- 北京(13054)
- 院(12854)
- 省(12744)
- 科学院(11003)
- 农业大学(10770)
- 科技(10704)
- 州(10647)
- 财经(10388)
- 基金
- 项目(59616)
- 科学(45893)
- 基金(41724)
- 研究(39584)
- 家(39426)
- 国家(39139)
- 科学基金(31774)
- 省(24320)
- 社会(23093)
- 自然(22178)
- 社会科(21938)
- 社会科学(21932)
- 自然科(21685)
- 自然科学(21673)
- 基金项目(21349)
- 自然科学基金(21285)
- 划(21192)
- 资助(17666)
- 教育(17206)
- 科技(14691)
- 编号(14343)
- 重点(14180)
- 创(14176)
- 计划(13846)
- 创新(13451)
- 发(13346)
- 部(12585)
- 业(11993)
- 科研(11691)
- 成果(11585)
共检索到135102条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 图书情报工作
[作者]
韩红旗 安小米
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。
[期刊] 情报学报
[作者]
吴俊 程垚 郝瀚 艾力亚尔·艾则孜 刘菲雪 苏亦坡
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。
[期刊] 情报理论与实践
[作者]
郑梦悦 秦春秀 马续补
[目的/意义]近年来,科技文献资源呈爆炸性增长,海量科技文献中依旧存在大量非结构化摘要。非结构化摘要一方面不利于学者阅读与理解;另一方面不利于对摘要内部信息进行知识的自动化抽取和相应的检索。研究科技文献非结构化摘要的知识表示模型及其自动化抽取方法,对学者快速阅读和机器自动化处理具有重要意义。[方法/过程]文章在分析科技文献非结构化摘要结构的基础上,结合知识元本体理论,构建了一个面向科技文献非结构化摘要的知识元本体模型。通过分析非结构化摘要的写作特征,将文本按句子级划分为目的、方法、结果或结论三个要素,统计每个要素句中的线索词、句型和位置,建立相关规则库,根据本体模型和规则库构建相关抽取算法。最后,下载《计算机技术与发展》中的部分文献进行实验。[结果/结论]通过增加句型集和线索词集,完善了非结构化摘要的要素,构建了非结构化摘要知识元本体模型。实验结果表明,根据本文提出的模型能有效地对非结构化摘要中的知识元进行抽取。[局限]实验的不足之处是需要人工对摘要中的句型和线索词进行归纳总结。
[期刊] 情报理论与实践
[作者]
蒋婷 孙建军
[目的/意义]术语是本体的重要组成部分,术语自动抽取是本体自动构建的基础,文章采用回归的方法对未登录词进行概率(某个数值(组合)对应的候选词集合中术语的概率)预测,获得该词可能为术语的概率。[方法/过程]文章结合语言学和统计方法,通过构建术语库提取术语抽取模板来抽取候选术语,此外,通过引入回归的方法,将术语抽取问题转化为对词语成为术语的概率的预测问题。[结果/结论]提出的方法最后通过实验验证了其有效性。
[期刊] 图书情报工作
[作者]
季培培 鄢小燕 岑咏华
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。
关键词:
术语抽取 术语识别 领域中文信息处理
[期刊] 情报理论与实践
[作者]
李烯 徐朝军
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。
关键词:
数据挖掘 网页分块 数学期望 正文抽取
[期刊] 情报学报
[作者]
俞琰 赵乃瑄
针对目前专利术语抽取中不能有效地过滤一些高频非术语词串和无法正确抽取低频术语的问题,本文提出基于通用词与术语部件的专利术语抽取方法。该方法首先使用通用词作为切分符选取候选术语;再利用与候选术语有相同术语部件的相似候选术语信息,评估候选术语成为术语的可能性。实验结果表明,与传统的方法相比,提出的方法能够有效地提高专利术语抽取的准确度。
关键词:
专利文献分析 术语抽取 通用词 术语部件
[期刊] 图书情报工作
[作者]
屈鹏 王惠临
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。
关键词:
术语抽取 文本挖掘 专利 信息分析
[期刊] 情报学报
[作者]
赵洪 王芳
理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。
[期刊] 情报学报
[作者]
朱惠 王昊 苏新宁 邓三鸿
本体是知识组织的有效方式,也是构建语义网的重要环节,而概念非分类关系又是本体的重要组成部分。由于术语是概念的外在表达,因此本文在深入分析当前国内外术语非分类关系抽取研究的基础上,引入共现分析、结构分析、模板构建、逻辑推理等方法和技术构建了面向汉语领域非结构化文本的术语非分类关系抽取模型,分别从内容和结构两个不同的角度抽取术语非分类关系。论文提出了模型的主要运行流程以及各功能模块的主要组成部件,对主要组成部件的具体实现进行了探讨,并对相关方法的局限性进行了论述。本文的研究为术语非分类关系抽取提供了新的思路,丰富了知识发现方法,同时也能为实现可行有效的知识组织提供参考。
[期刊] 情报理论与实践
[作者]
张思凤 梁梦丽 曹高辉
[目的/意义]主题抽取的效果对于信息检索、自动标引、自然语言处理具有重要的价值,提高主题抽取的效果,既能改善检索系统主题检索准确性,又能够帮助学者更加高效地了解文献的主要思想。文章研究并探讨了从引用内容中抽取文献主题的有效性。[方法/过程]选取自然语言处理领域文献为研究对象,利用文献之间的引用与被引用关系抽取引用内容,进行分词并计算权重;将引用内容、全文抽取的候选词进行专家打分评价效果并将其与关键词对比,使用F值评价两种语料库抽取候选词的优劣。[结果/结论]通过专家打分及计算F值,发现引用内容在抽取候选词
关键词:
科技文献 引文 主题抽取 关键词
[期刊] 情报理论与实践
[作者]
高强 游宏梁
作为信息抽取的重要组成部分,事件抽取的研究具有广阔的应用前景和巨大的现实意义。文章阐述事件及事件抽取的基本概念,简单介绍事件抽取的发展历史,并从元事件抽取和主题事件抽取两个方面出发,详细介绍主要的研究方法与研究现状,总结事件抽取发展所面临的挑战,并在此基础上展望事件抽取的研究趋势。
关键词:
事件抽取 信息抽取 信息技术 综述
[期刊] 情报理论与实践
[作者]
洪娜 张智雄 刘建华
本文通过对国内外OBIE理论和OBIE系统的分析,比较了OBIE技术与传统信息抽取技术的主要区别,归纳了4种主要的技术方法,分别是基于实例的OBIE,基于规则的OBIE以及基于机器学习的OBIE和Ontology驱动的OBIE,并用案例对各种技术方法做了阐释,最后总结了OBIE研究和系统开发中存在的难点问题。
关键词:
本体 信息抽取 信息技术
[期刊] 情报理论与实践
[作者]
徐文海 温有奎
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著。
关键词:
关键词抽取 向量空间模型 算法
[期刊] 图书情报工作
[作者]
韩普 顾亮
[目的/意义]医学实体抽取是医疗健康领域信息组织和知识挖掘的关键环节。针对中文医学实体专业性强、命名规则复杂和抽取难度大的现状,探究如何利用多种深度学习方法混合协作以提升中文医学实体抽取的准确性。[方法/过程]首.先在深度学习模型BiLSTM-CRF基础上,引入语言模型BERT和迭代膨胀卷积神经网络IDCNN,增强文本语义表征能力和局部特征捕获能力;接着利用BERT预训练进行外部医学语料资源的知识迁移,实现多语义特征融合;然后引入自注意力机制捕获全局上下文重要信息,并加入Highway优化深层网络训练,解决网络加深导致的精度下降问题,最终提出MF-HDL(Multi Feature-Hybrid Deep Learning)模型。[结果/结论]MF-HDL模型在中文糖尿病数据集上效果显著,其F1值较基准模型IDCNN-CRF和BiLSTM-CRF分别提升18.42%和17.18%,此方法在中文医学实体抽取任务上表现优异。
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除