标题
  • 标题
  • 作者
  • 关键词
登 录
当前IP:忘记密码?
年份
2024(9459)
2023(13834)
2022(12190)
2021(11587)
2020(9693)
2019(22635)
2018(22462)
2017(43740)
2016(23660)
2015(26917)
2014(26766)
2013(25981)
2012(23353)
2011(20760)
2010(20540)
2009(18321)
2008(17369)
2007(14745)
2006(12433)
2005(10263)
作者
(65358)
(54238)
(53915)
(51284)
(34522)
(26088)
(24541)
(21606)
(20682)
(19177)
(18564)
(17988)
(17034)
(16925)
(16784)
(16344)
(16310)
(16249)
(15473)
(15443)
(13342)
(13168)
(13086)
(12465)
(12127)
(11997)
(11962)
(11880)
(10908)
(10820)
学科
(91460)
经济(91364)
管理(67448)
(64119)
(54260)
企业(54260)
方法(48014)
数学(42359)
数学方法(41607)
(23585)
(22148)
中国(21938)
业经(20067)
(18979)
理论(17727)
地方(17261)
农业(15895)
(15594)
贸易(15587)
技术(15249)
(15139)
(14888)
财务(14806)
财务管理(14775)
(14627)
(14037)
企业财务(13966)
环境(13951)
(12823)
教育(11698)
机构
学院(325157)
大学(323674)
管理(133870)
(123633)
经济(120936)
理学(117971)
理学院(116733)
管理学(114239)
管理学院(113656)
研究(99318)
中国(71494)
(67285)
科学(63774)
(54174)
业大(50044)
(49750)
(47897)
中心(46079)
财经(45084)
(44827)
研究所(44263)
(42749)
师范(42342)
北京(41549)
(41200)
农业(39006)
(36814)
(36707)
经济学(36577)
技术(36308)
基金
项目(234724)
科学(185026)
研究(171338)
基金(169870)
(147684)
国家(146470)
科学基金(127448)
社会(105812)
社会科(100258)
社会科学(100230)
(92955)
基金项目(90604)
自然(85026)
自然科(83128)
自然科学(83110)
自然科学基金(81569)
教育(81249)
(77846)
编号(71218)
资助(70692)
成果(55536)
重点(52170)
(51400)
(49360)
(49122)
课题(48280)
创新(45881)
科研(45150)
教育部(44496)
大学(44334)
期刊
(123770)
经济(123770)
研究(87796)
中国(54896)
学报(50448)
管理(47404)
科学(46393)
(44078)
(40542)
教育(40279)
大学(38874)
学学(36566)
技术(32354)
农业(31152)
业经(21807)
(21326)
金融(21326)
财经(20683)
经济研究(20010)
图书(17571)
(17538)
问题(16076)
科技(15991)
(15880)
技术经济(15778)
统计(15341)
理论(15145)
(14877)
商业(14158)
资源(14083)
共检索到442365条记录
发布时间倒序
  • 发布时间倒序
  • 相关度优先
文献计量分析
  • 结果分析(前20)
  • 结果分析(前50)
  • 结果分析(前100)
  • 结果分析(前200)
  • 结果分析(前500)
[期刊] 情报学报  [作者] 吴俊  程垚  郝瀚  艾力亚尔·艾则孜  刘菲雪  苏亦坡  
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。
[期刊] 情报学报  [作者] 徐飞  叶文豪  宋英华  
词性自动标注的准确率和召回率直接影响到后续食品安全事件各个层面知识和应对策略挖掘的整体效果,不仅直接影响食品安全事件中术语、实体抽取的性能,而且在一定程度上决定了与食品安全事件相关的分类、聚类和关联知识挖掘的精准度。本文分别基于CRF、RNN、BiLSTM和BiLSTM-CRF等传统机器学习模型与深度学习模型对食品安全事件文本进行词性自动标注实验。四十组实验结果表明,在未加入任何人工特征的条件下,深度学习模型的标注调和平均值高于传统的条件随机场模型,其中RNN和BiLSTM的调和平均值分别高出了2.43%和3.93%。而有机融合了BiLSTM和条件随机场模型两者最优特征的BiLSTM-CRF模型整体性能达到了最优,其中调和平均值比BiLSTM高出了7.12%,并且其中最优模型的调和平均值达到了95.89%。
[期刊] 图书情报工作  [作者] 陈德鑫  占袁圆  杨兵  谢亚霓  
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。
[期刊] 情报理论与实践  [作者] 蒋婷  孙建军  
[目的/意义]术语是本体的重要组成部分,术语自动抽取是本体自动构建的基础,文章采用回归的方法对未登录词进行概率(某个数值(组合)对应的候选词集合中术语的概率)预测,获得该词可能为术语的概率。[方法/过程]文章结合语言学和统计方法,通过构建术语库提取术语抽取模板来抽取候选术语,此外,通过引入回归的方法,将术语抽取问题转化为对词语成为术语的概率的预测问题。[结果/结论]提出的方法最后通过实验验证了其有效性。
[期刊] 情报学报  [作者] 赵洪  王芳  
理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。
[期刊] 情报理论与实践  [作者] 王昊  苏新宁  
本文重点阐述了中文通用本体概念实例的机器抽取过程,建立了基于模式匹配的通用本体概念识别模型,以此作为领域本体自动构建的基础。此后探讨了该模型在情报学各研究领域中的应用前景,并通过实验检验模型在实际应用中的识别效果。
[期刊] 数据分析与知识发现  [作者] 张琴  郭红梅  张智雄  
【目的】为解决已有方法中单词特征表示不具有语义信息这一问题,对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征,利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验,并选出代表全部特征的有效特征子集。【结果】使用全部特征时,决策树算法的准确率达到0.48,关系抽取效果最佳,Member-Collection(E_2,E_1)类型关系的F_1值达到0.70,特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高,
[期刊] 情报学报  [作者] 李志义  王冕  赵鹏武  
自媒体环境下对海量评价信息进行情感分析与监控已越发重要,它不仅可推动观点挖掘的深入研究,而且可帮助企业探索用户需求以产生巨大的商业价值。本文在条件随机场模型(CRFs)的基础上,结合句法特性,通过实验选取合适的句法特性组合,寻找评价特征提取的路径;其次,构建了手机领域的评论语料库。然后,利用句法分析器把评论短句分解成相应的句法树,分析评价特征词和评价词之间存在的依存关系以及观点信息的完整性结构,利用算法将〈评价特征,评价词〉对从评论语料中抽取出来。提出了基于依存语法的〈评价特征,评价词〉对抽取方法,利用A
[期刊] 图书馆杂志  [作者] 余馨玲  常娥  
古诗词地名实体识别不仅有助于深度挖掘古诗词文本之间的关联,而且有助于绘制中国诗歌版图分布,推动空间维度的中国古典文学研究。文章围绕南京城系统采集有关古诗词数据,采用BIOES方法进行地名实体标注。针对古诗词领域训练数据匮乏、以字代词等问题,提出一种采用数据增强方法,同时融合预训练模型与条件随机场方法的古诗词地名识别模型,简称DA-BERT-CRF模型。文章将训练数据采用实体交叉互换方法进行数据增强处理,然后通过预训练模型BERT得到古诗词地名的上下文语义信息,最后利用条件随机场CRF实现地名标签约束并生成全局最优地名序列。文章提出的DA-BERT-CRF模型十折交叉实验平均精确率、平均召回率和平均F值分别为86.49%、90.44%、88.35%。
[期刊] 情报科学  [作者] 邱明涛  马静  张磊  姚兆旭  
【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。
[期刊] 统计与决策  [作者] 刘源  尹慧萍  朱建平  
文章基于对平稳时间序列数据的随机抽取,选用AR模型研究其模型定阶方法和参数评估准则。根据数据有序性的特点,提出利用交叉验证的方法确定自回归模型阶数,并通过对原数据的无放回抽取实现对系数参数估计的评估。实例分析结果表明,交叉验证的定阶与AIC准则定阶结果保持较高一致性,新的参数评估在一定的模型误差范围内可以得到更为简单有效的系数估计区间。
[期刊] 统计与决策  [作者] 刘源  尹慧萍  朱建平  
文章基于对平稳时间序列数据的随机抽取,选用AR模型研究其模型定阶方法和参数评估准则。根据数据有序性的特点,提出利用交叉验证的方法确定自回归模型阶数,并通过对原数据的无放回抽取实现对系数参数估计的评估。实例分析结果表明,交叉验证的定阶与AIC准则定阶结果保持较高一致性,新的参数评估在一定的模型误差范围内可以得到更为简单有效的系数估计区间。
[期刊] 图书馆杂志  [作者] 沈立力  姜鹏  王静  
Google AI团队发布的BERT模型在多项自然语言处理任务中取得了研究成果,但在中文文献自动分类领域尚有待探索。本文旨在探索BERT_(base)中文基础模型在中文社科、科技期刊文献分类上的实际分类效果,指出模型在实际应用中存在的问题并提出解决方法。本文选取R大类(医药、卫生)、TG大类(金属学与金属工艺)、F大类(经济)、J大类(艺术)共1 745 000条数据作为训练语料,并以另外9 610条数据作为测试样本,利用BERT模型分别对社科、科技期刊文献进行分类研究。测试结果表明BERT模型在社科文献中的四级准确率为76.95%,科技文献为68.55%。之后引入惩罚策略,为实际工作中免检数据阈值的设定提供参考。BERT_(base)模型在《全国报刊索引》实际分类标引工作中有一定可行性,基本满足当前网络环境下中文文献自动分类的需求。
[期刊] 图书情报工作  [作者] 韩红旗  安小米  
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。
[期刊] 图书情报工作  [作者] 韩普  顾亮  
[目的/意义]医学实体抽取是医疗健康领域信息组织和知识挖掘的关键环节。针对中文医学实体专业性强、命名规则复杂和抽取难度大的现状,探究如何利用多种深度学习方法混合协作以提升中文医学实体抽取的准确性。[方法/过程]首.先在深度学习模型BiLSTM-CRF基础上,引入语言模型BERT和迭代膨胀卷积神经网络IDCNN,增强文本语义表征能力和局部特征捕获能力;接着利用BERT预训练进行外部医学语料资源的知识迁移,实现多语义特征融合;然后引入自注意力机制捕获全局上下文重要信息,并加入Highway优化深层网络训练,解决网络加深导致的精度下降问题,最终提出MF-HDL(Multi Feature-Hybrid Deep Learning)模型。[结果/结论]MF-HDL模型在中文糖尿病数据集上效果显著,其F1值较基准模型IDCNN-CRF和BiLSTM-CRF分别提升18.42%和17.18%,此方法在中文医学实体抽取任务上表现优异。
文献操作() 导出元数据 文献计量分析
导出文件格式:WXtxt
作者:
删除