- 年份
- 2024(10432)
- 2023(15049)
- 2022(12983)
- 2021(12105)
- 2020(10216)
- 2019(23428)
- 2018(23327)
- 2017(44465)
- 2016(24349)
- 2015(27648)
- 2014(27424)
- 2013(26902)
- 2012(24567)
- 2011(21914)
- 2010(22161)
- 2009(20485)
- 2008(19149)
- 2007(16794)
- 2006(14709)
- 2005(12873)
- 学科
- 济(88375)
- 经济(88254)
- 管理(66612)
- 业(63210)
- 企(53656)
- 企业(53656)
- 方法(40568)
- 数学(34715)
- 数学方法(34163)
- 中国(29148)
- 融(28151)
- 金融(28143)
- 银(26483)
- 银行(26428)
- 行(25472)
- 财(25169)
- 农(23562)
- 学(23360)
- 制(20862)
- 业经(20590)
- 地方(20329)
- 理论(17489)
- 务(16696)
- 财务(16616)
- 财务管理(16585)
- 农业(15924)
- 企业财务(15836)
- 贸(15233)
- 贸易(15219)
- 易(14732)
- 机构
- 大学(335926)
- 学院(333863)
- 管理(128304)
- 济(124363)
- 经济(121266)
- 研究(114211)
- 理学(110834)
- 理学院(109479)
- 管理学(107185)
- 管理学院(106615)
- 中国(90621)
- 科学(74339)
- 京(72261)
- 财(59751)
- 所(58720)
- 农(58607)
- 研究所(53875)
- 中心(53476)
- 业大(52497)
- 江(49083)
- 财经(47623)
- 农业(46222)
- 北京(45721)
- 范(45118)
- 师范(44573)
- 经(43231)
- 院(42019)
- 州(40438)
- 技术(37388)
- 经济学(36634)
- 基金
- 项目(232360)
- 科学(181280)
- 基金(167152)
- 研究(167031)
- 家(147292)
- 国家(146056)
- 科学基金(124123)
- 社会(101635)
- 社会科(96164)
- 社会科学(96138)
- 省(91670)
- 基金项目(88826)
- 自然(83059)
- 自然科(81117)
- 自然科学(81100)
- 自然科学基金(79599)
- 划(77843)
- 教育(76712)
- 资助(69177)
- 编号(68419)
- 成果(56297)
- 重点(52590)
- 部(49966)
- 发(49188)
- 创(48227)
- 课题(47890)
- 科研(45230)
- 创新(44971)
- 计划(43451)
- 大学(42837)
共检索到494161条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 数据分析与知识发现
[作者]
张琴 郭红梅 张智雄
【目的】为解决已有方法中单词特征表示不具有语义信息这一问题,对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征,利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验,并选出代表全部特征的有效特征子集。【结果】使用全部特征时,决策树算法的准确率达到0.48,关系抽取效果最佳,Member-Collection(E_2,E_1)类型关系的F_1值达到0.70,特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高,
关键词:
关系抽取 词嵌入表示 Word2Vec
[期刊] 情报杂志
[作者]
李航 唐超兰 杨贤 沈婉婷
[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档集整体的重要性的关键词抽取方法。[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性、位置特征计算词语对单文档中的重要性。然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合。最后,利用三个特征计算得到词语的综合权值来改进TextRank模
[期刊] 实验技术与管理
[作者]
唐贤伦 丁河长 唐瑜泽 谢涛 罗洪平
关系抽取是信息抽取中的一项重要任务,其目的是从非结构化文本中抽取出所有关系三元组。然而,如何有效地处理这一问题仍然是一个挑战,特别是对于关系重叠问题。为了有效处理重叠问题,该文提出一种基于异构图和语义融合的实体关系抽取方法:使用异构图将关系信息作为先验知识融入词表示,增强词表示的表示能力,使得模型能有效地处理单词实体重叠问题;使用语义融合模块将不同层次特征融合在一起作为关系分类模型的输入,使得模型能够有效地处理实体对重叠问题。所提方法在NYT和WebNLG数据集上取得了最好的效果,详细的实验也表明所提方法可以处理复杂的场景。
[期刊] 清华大学学报(自然科学版)
[作者]
周炫余 刘林 卢笑 李璇 张思敏
关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任务特性进行领域适配和语义表征能力有限的问题。该文提出一种多模态信息增强表示的中文关键词抽取方法MIEnhance-KPE,首先引入Adapter层将偏旁和部首信息集成到预训练语言模型层中,得到领域自适应的文本表示;其次利用卷积神经网络提取汉字的图像特征,同时使用交叉注意力机制融合汉字图像特征和文本特征,实现文本语义表示增强;最后利用CRF(conditional random field)模型进行序列标注任务,并计算词语的位置词频权重对其进行排序获得关键词。与目前十分先进的关键词抽取方法KIEMP相比, MIEnhance-KPE在公开的中文科学文献数据集和自构建的中文教育关键词抽取数据集上的F值分别提升了15.71%和3.40%;消融实验结果表明,所提出的领域自适应模块和视觉语义增强表示模块均能有效提高关键词抽取的准确性。MIEnhance-KPE的提出有助于教育研究者精准了解教育发展趋势,促进教育理论和实践的创新。
[期刊] 情报学报
[作者]
李志义 黄子风 许晓绵
以深度学习为代表的表示学习在语音识别、图像分析和自然语言处理领域获得了广泛关注与应用,它不仅推动了人工智能的深入研究和快速发展,而且促使企业思索新的运营与盈利模式。本文拟通过综述的形式对这些研究进行梳理,形成较为完整的综述。通过对国内外相关文献的调查和整理,从信息抽取与表示、跨模态系统建模两维度评述了基于表示学习的跨模态检索与特征抽取方面的研究成果。文章首先概括了自动编码器、稀疏编码、限制玻尔兹曼机、深度信念网络、卷积神经网络等五个经典的表示学习算法,然后从基于共享层建立各模态间的关联、表示空间中各模态间的关联、以深度学习为基础的跨模态建模算法等三方面归纳跨模态系统建模研究的现状,最后总结了跨模态检索的评价指标。研究发现:已有检索研究对于单模态信息检索较为丰富,查询和候选集的内容均属于同一模态;跨模态检索也仅限于对图像、文本两个模态对齐的语料。未来需要增加语音、视频、图像、文本等多模态数据的检索,改进深度学习算法构建多模态检索模型,实现三种或以上的跨模态检索。此外,尚需建立适合多模态检索系统的评价指标。
[期刊] 中国图书馆学报
[作者]
周宁 余肖生 刘玮 张芳芳
互联网上检索信息,查准率、查全率不高的主要原因是信息组织的深度仅停留在文献层次。解决的根本方法是将信息组织深入到知识元层次。为此就要解决知识元表示与抽取正确与否的问题。图4。表2。参考文献4。
[期刊] 情报学报
[作者]
薛翠芳 郭炳炎
本文从自动文摘的需求出发 ,探讨特征词自动抽取的方法和技术 ,设计并实现了两种不同的特征词自动抽取算法。这些方法对文本的自动分类和全文检索也有一定的借鉴意义。
关键词:
特征词 加权函数 自动文摘
[期刊] 情报学报
[作者]
俞琰 尚明杰 赵乃瑄
由于目前专利关键词抽取主要依据通用文本关键词抽取方法,没有充分考虑专利特征的问题,本文提出基于专利权利要求特征驱动的专利关键词抽取方法。该方法主要包括预处理、基于最长公共子串的候选关键词选取、基于信息增益比的冗余候选关键词去除和融入特指度的候选关键词权重等四个主要步骤。真实专利数据实验结果表明,本文提出的权利要求特征驱动的专利关键词抽取方法具有可行性与有效性。
关键词:
抽取 权利要求特征 TF-IDF
[期刊] 数据分析与知识发现
[作者]
王东波 吴毅 叶文豪 刘睿伦
【目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件,结合情报学数据获取、标注和组织的方法,融合食品安全事件实体的多种分布特征知识,通过条件随机场模型,构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1 500万字经过标注的食品安全事件语料的规模上,通过统计食品安全事件实体的内部和外部特征,基于条件随机场机器学习模型,构建了食品安全实体的抽取模型,该模型最高的F值达到91.94%。
[期刊] 情报学报
[作者]
吴俊 程垚 郝瀚 艾力亚尔·艾则孜 刘菲雪 苏亦坡
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。
[期刊] 情报学报
[作者]
李志义 王冕 赵鹏武
自媒体环境下对海量评价信息进行情感分析与监控已越发重要,它不仅可推动观点挖掘的深入研究,而且可帮助企业探索用户需求以产生巨大的商业价值。本文在条件随机场模型(CRFs)的基础上,结合句法特性,通过实验选取合适的句法特性组合,寻找评价特征提取的路径;其次,构建了手机领域的评论语料库。然后,利用句法分析器把评论短句分解成相应的句法树,分析评价特征词和评价词之间存在的依存关系以及观点信息的完整性结构,利用算法将〈评价特征,评价词〉对从评论语料中抽取出来。提出了基于依存语法的〈评价特征,评价词〉对抽取方法,利用A
[期刊] 图书情报工作
[作者]
韩普 顾亮
[目的/意义]医学实体抽取是医疗健康领域信息组织和知识挖掘的关键环节。针对中文医学实体专业性强、命名规则复杂和抽取难度大的现状,探究如何利用多种深度学习方法混合协作以提升中文医学实体抽取的准确性。[方法/过程]首.先在深度学习模型BiLSTM-CRF基础上,引入语言模型BERT和迭代膨胀卷积神经网络IDCNN,增强文本语义表征能力和局部特征捕获能力;接着利用BERT预训练进行外部医学语料资源的知识迁移,实现多语义特征融合;然后引入自注意力机制捕获全局上下文重要信息,并加入Highway优化深层网络训练,解决网络加深导致的精度下降问题,最终提出MF-HDL(Multi Feature-Hybrid Deep Learning)模型。[结果/结论]MF-HDL模型在中文糖尿病数据集上效果显著,其F1值较基准模型IDCNN-CRF和BiLSTM-CRF分别提升18.42%和17.18%,此方法在中文医学实体抽取任务上表现优异。
[期刊] 情报科学
[作者]
李枫林 柯佳
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然语言的先验知识
关键词:
深度学习 神经网络 实体关系抽取 词向量
[期刊] 情报理论与实践
[作者]
朱恒民 马静 黄卫东
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。
关键词:
主题抽取 领域本体 文本挖掘
[期刊] 中国农业科学
[作者]
张永玲 姜梦洲 俞佩仕 姚青 杨保军 唐健
【目的】在农业害虫测报中,常常需要从大量的昆虫中识别出几种重要的测报害虫。目前基于图像的农业害虫识别研究,大部分是在有限种类有限样本量基础上进行的农业害虫识别。本研究为了从大量的水稻昆虫图像中识别出9种水稻测报害虫,尝试提出了一种基于多特征融合和稀疏表示的农业害虫图像识别方法。【方法】首先,为了获得最优的农业害虫识别模型,将所有图像进行旋转使昆虫头朝上,按照1﹕2长宽比裁剪图像,使昆虫居中并占据图像大部分区域,将图像进行等比例缩放至统一尺寸48×96像素。提取所有昆虫的HSV颜色特征、局部特征中的HOG特征、Gabor特征和LBP特征。然后,利用单一特征和融合特征分别对训练样本构建过完备字典,字典中的每一个列向量表示一个训练样本,且满足同一类训练样本均在同一个子空间中;应用过完备字典对测试图像进行多特征稀疏表示,通过求解l1范数意义下的优化问题获取稀疏解,使得除测试样本所在的类别外其他的训练样本的系数都是零或接近零的数值。最后,计算稀疏集中指数阈值,用于判断测试样本的有效性,如果测试样本的稀疏集中指数大于该阈值,则认为最小残差所对应的类别即为测试样本的类别,否则认为该测试样本为非测报昆虫。同时,利用相同的特征和训练样本训练SVM分类器对测试样本进行测试,与稀疏表示害虫识别模型进行比较。【结果】利用单一特征训练的稀疏表示害虫识别模型中,基于HOG特征的稀疏表示识别模型获得了9种测报害虫较高的识别率和较低的误检率,分别为87.0%和7.5%;利用颜色特征分别与3种局部特征进行结合获得的稀疏表示识别模型,测试结果表明,基于颜色和HOG特征的稀疏表示识别模型获得了最高的识别率和最低的误检率,分别为90.1%和5.2%;将颜色、HOG和Gabor 3个特征结合获得的稀疏表示识别模型,识别率下降为83.5%,误检率上升为10.3%。利用同样的特征或特征融合训练得到的支持向量机分类器,识别率均低于对应特征获得的稀疏表示识别模型的识别率,而误检率均高于对应特征训练的稀疏表示害虫识别模型的误检率。【结论】基于颜色和HOG融合特征的稀疏表示识别模型获得了较高的农业害虫识别率和较低的误检率;通过稀疏集中指数阈值,有效地排除了非测报昆虫,实现了从大量的农业昆虫中自动识别出需要测报的害虫。
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除