- 年份
- 2024(4521)
- 2023(6504)
- 2022(5567)
- 2021(5361)
- 2020(4498)
- 2019(10391)
- 2018(10257)
- 2017(19940)
- 2016(10379)
- 2015(11476)
- 2014(11050)
- 2013(10500)
- 2012(9113)
- 2011(7872)
- 2010(7231)
- 2009(6094)
- 2008(5284)
- 2007(3959)
- 2006(2812)
- 2005(1900)
- 学科
- 济(40201)
- 经济(40165)
- 管理(29729)
- 业(28612)
- 方法(24378)
- 企(24251)
- 企业(24251)
- 数学(22400)
- 数学方法(22036)
- 财(10816)
- 农(9635)
- 中国(8686)
- 业经(8078)
- 务(7477)
- 财务(7447)
- 财务管理(7432)
- 企业财务(7080)
- 贸(6966)
- 技术(6965)
- 贸易(6964)
- 易(6816)
- 农业(6481)
- 理论(6281)
- 地方(6269)
- 环境(5942)
- 和(5822)
- 学(5552)
- 划(5422)
- 制(5242)
- 教学(4871)
- 机构
- 大学(130926)
- 学院(130012)
- 管理(57698)
- 济(55412)
- 经济(54581)
- 理学(51937)
- 理学院(51466)
- 管理学(50546)
- 管理学院(50294)
- 研究(35010)
- 中国(25302)
- 京(24626)
- 财(23488)
- 财经(20289)
- 科学(20163)
- 经(18822)
- 业大(18712)
- 中心(18439)
- 经济学(17783)
- 范(16420)
- 江(16416)
- 经济学院(16348)
- 师范(16262)
- 农(16224)
- 经济管理(15685)
- 财经大学(15681)
- 商学(15315)
- 商学院(15184)
- 所(14073)
- 北京(14069)
- 基金
- 项目(102299)
- 科学(83472)
- 基金(77652)
- 研究(75647)
- 家(66616)
- 国家(66112)
- 科学基金(59533)
- 社会(50258)
- 社会科(47858)
- 社会科学(47848)
- 基金项目(41947)
- 省(39349)
- 自然(38955)
- 自然科(38154)
- 自然科学(38146)
- 自然科学基金(37456)
- 教育(36403)
- 划(33430)
- 资助(30735)
- 编号(29998)
- 部(23738)
- 重点(22750)
- 创(22505)
- 成果(21832)
- 国家社会(21601)
- 发(21341)
- 教育部(21327)
- 创新(20997)
- 人文(20923)
- 科研(20419)
共检索到163317条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
朱红灿 邹凯
互联网网页是通过超链接连接起来的,为人们的日常生活和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域发挥着越来越重要的作用。然而存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种有监督机器学习方法自动地抽取网页中的相关链接。试验结果表明该算法具有实用的价值。
关键词:
机器学习 链接抽取 主题漂移 贝叶斯算法
[期刊] 图书情报工作
[作者]
陈俊彬 曹树金
针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。
[期刊] 图书情报工作
[作者]
董旻 方曙
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。
[期刊] 情报理论与实践
[作者]
朱恒民 马静 黄卫东
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。
关键词:
主题抽取 领域本体 文本挖掘
[期刊] 图书情报工作
[作者]
聂卉 黄贵鹏
重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为S-DOM树。从S-DOM树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。
关键词:
Web信息抽取 语义标注 包装器
[期刊] 情报理论与实践
[作者]
耿焕同 宋庆席 何宏强
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点。结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法。
关键词:
网络 信息抽取 视觉分块
[期刊] 情报理论与实践
[作者]
赵洁 金培权
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题。本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论。在此基础上讨论了Web时态信息的本体表示问题。最后,预测了Web时态信息抽取与检索的若干未来发展方向。
关键词:
信息抽取 信息检索 网络
[期刊] 图书情报工作
[作者]
韩普 顾亮
[目的/意义]医学实体抽取是医疗健康领域信息组织和知识挖掘的关键环节。针对中文医学实体专业性强、命名规则复杂和抽取难度大的现状,探究如何利用多种深度学习方法混合协作以提升中文医学实体抽取的准确性。[方法/过程]首.先在深度学习模型BiLSTM-CRF基础上,引入语言模型BERT和迭代膨胀卷积神经网络IDCNN,增强文本语义表征能力和局部特征捕获能力;接着利用BERT预训练进行外部医学语料资源的知识迁移,实现多语义特征融合;然后引入自注意力机制捕获全局上下文重要信息,并加入Highway优化深层网络训练,解决网络加深导致的精度下降问题,最终提出MF-HDL(Multi Feature-Hybrid Deep Learning)模型。[结果/结论]MF-HDL模型在中文糖尿病数据集上效果显著,其F1值较基准模型IDCNN-CRF和BiLSTM-CRF分别提升18.42%和17.18%,此方法在中文医学实体抽取任务上表现优异。
[期刊] 情报科学
[作者]
李枫林 柯佳
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然语言的先验知识
关键词:
深度学习 神经网络 实体关系抽取 词向量
[期刊] 情报理论与实践
[作者]
王吉林 舒江波 李勇 杨森
近年来Web信息抽取技术领域的研究已经取得了一定进展,但系统的抽取性能仍有待提高。针对这一问题,提出了一种Web主题信息自动化抽取的新框架。该框架提供了一种自动生成网页信息抽取规则的方法,并将网页信息抽取的任务由服务器端转移到客户端,充分利用网页设计模版的结构化、层次化特点,通过对网页进行爬取、净化和处理,转化成XML文档,然后根据XPath定位主题信息,抽取出该主题信息的公共抽取规则。实验结果表明,该方法能快速有效地抽取所定制的感兴趣的主题网页信息,并且具有较高的准确率。
关键词:
主题信息 信息抽取 规则
[期刊] 图书情报工作
[作者]
王东波 胡昊天 周鑫 朱丹浩
[目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告,结合情报学的数据获取、标注和组织方法,构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11 000篇经过标注的职位招聘公告语料的基础上,基于Bi-LSTM-CRF、CRF和Bi-LSTM模型,对数据科学招聘实体的抽取任务进行性能的对比,确定最终的数据科学招聘实体自动抽取模型,设计数据科学招聘实体自动抽取平台,并构建数据科学招聘实体网络。
[期刊] 情报理论与实践
[作者]
丁君军 郑彦宁 化柏林
学术文献作为科研成果的结晶,蕴含着丰富的知识,属性抽取作为知识抽取的一种应用,是把不同学术文献中对于某一学术概念的属性描述集中起来,用来构建属性描述知识库。本文通过人工构建规则的方法,形成了属性抽取的九大类描述规则,并对属性描述进行了数量关系和情感信息方面的分析,然后对学术概念属性抽取系统进行设计和实现,并对《情报学报》2007年和2008年的文章进行抽取实验,对系统抽取的结果和人工标记的结果进行了测评,并进行了实验结果的分析。
关键词:
知识抽取 规则构建 学术定义 概念
[期刊] 情报理论与实践
[作者]
张思凤 梁梦丽 曹高辉
[目的/意义]主题抽取的效果对于信息检索、自动标引、自然语言处理具有重要的价值,提高主题抽取的效果,既能改善检索系统主题检索准确性,又能够帮助学者更加高效地了解文献的主要思想。文章研究并探讨了从引用内容中抽取文献主题的有效性。[方法/过程]选取自然语言处理领域文献为研究对象,利用文献之间的引用与被引用关系抽取引用内容,进行分词并计算权重;将引用内容、全文抽取的候选词进行专家打分评价效果并将其与关键词对比,使用F值评价两种语料库抽取候选词的优劣。[结果/结论]通过专家打分及计算F值,发现引用内容在抽取候选词
关键词:
科技文献 引文 主题抽取 关键词
[期刊] 情报理论与实践
[作者]
洪娜 张智雄 刘建华
本文通过对国内外OBIE理论和OBIE系统的分析,比较了OBIE技术与传统信息抽取技术的主要区别,归纳了4种主要的技术方法,分别是基于实例的OBIE,基于规则的OBIE以及基于机器学习的OBIE和Ontology驱动的OBIE,并用案例对各种技术方法做了阐释,最后总结了OBIE研究和系统开发中存在的难点问题。
关键词:
本体 信息抽取 信息技术
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除