- 年份
- 2024(5343)
- 2023(7669)
- 2022(6623)
- 2021(6219)
- 2020(5360)
- 2019(12259)
- 2018(12019)
- 2017(23292)
- 2016(12210)
- 2015(13654)
- 2014(13144)
- 2013(12665)
- 2012(11470)
- 2011(10010)
- 2010(9418)
- 2009(8258)
- 2008(7467)
- 2007(6051)
- 2006(4826)
- 2005(3862)
- 学科
- 济(48347)
- 经济(48295)
- 管理(34465)
- 业(32819)
- 企(27583)
- 企业(27583)
- 方法(27486)
- 数学(24641)
- 数学方法(24283)
- 财(12767)
- 中国(11786)
- 农(11652)
- 业经(9705)
- 学(9615)
- 贸(8770)
- 贸易(8768)
- 易(8574)
- 务(8386)
- 财务(8356)
- 财务管理(8335)
- 企业财务(7949)
- 技术(7857)
- 农业(7849)
- 地方(7701)
- 制(7312)
- 理论(7198)
- 和(7079)
- 环境(6940)
- 划(6285)
- 融(6195)
- 机构
- 大学(162682)
- 学院(161477)
- 济(66839)
- 管理(66107)
- 经济(65735)
- 理学(58622)
- 理学院(58065)
- 管理学(56881)
- 管理学院(56600)
- 研究(51204)
- 中国(37768)
- 京(32840)
- 科学(32563)
- 财(29044)
- 农(28418)
- 业大(26755)
- 中心(24904)
- 所(24364)
- 财经(24360)
- 农业(22695)
- 研究所(22631)
- 江(22496)
- 经(22418)
- 经济学(21120)
- 院(19395)
- 北京(19390)
- 经济学院(19243)
- 范(18837)
- 财经大学(18631)
- 师范(18510)
- 基金
- 项目(122730)
- 科学(97904)
- 基金(92013)
- 研究(85666)
- 家(81748)
- 国家(81140)
- 科学基金(70602)
- 社会(55621)
- 社会科(52884)
- 社会科学(52869)
- 基金项目(48825)
- 自然(47921)
- 省(47452)
- 自然科(46888)
- 自然科学(46871)
- 自然科学基金(46022)
- 划(40740)
- 教育(40095)
- 资助(37724)
- 编号(32783)
- 重点(27953)
- 部(27644)
- 创(26487)
- 发(25864)
- 创新(24825)
- 科研(24795)
- 成果(24302)
- 国家社会(23910)
- 教育部(23854)
- 计划(23753)
共检索到219517条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
李烯 徐朝军
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。
关键词:
数据挖掘 网页分块 数学期望 正文抽取
[期刊] 情报理论与实践
[作者]
耿焕同 宋庆席 何宏强
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点。结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法。
关键词:
网络 信息抽取 视觉分块
[期刊] 图书情报工作
[作者]
韩红旗 安小米
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。
[期刊] 情报理论与实践
[作者]
杜思奇 李红莲 吕学强
[目的/意义]面向电子商务领域的在线评论,通过识别产品特征和评价词之间是否存在修饰关系,抽取出在线评论中的情感标签,从而帮助网购用户迅速了解某一产品的性能。[方法/过程]引入汉语组块分析对评论文本进行初始化处理,对名词性信息以及形容词性信息进行抽取。通过最大熵对初始化集合进行过滤,从而获得最终的情感标签集合。[结果/结论]该方法对评论文本的适应性较好,可以有效抽取出情感标签。[局限]需要对语料进行初始化抽取,经过过滤后才能获得最终的情感标签集合。
关键词:
情感标签 汉语组块分析 最大熵模型
[期刊] 图书情报工作
[作者]
陈俊彬 曹树金
针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。
[期刊] 情报理论与实践
[作者]
高庆宁 吴鹏 张晶晶
[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。
关键词:
文档对象模型 算法 网页 信息抽取
[期刊] 统计研究
[作者]
杜强 ,许端端
分块抽样法就是根据全及总体的已往资料等辅助信息,先将全及总体按有关的品质标志或(能反映质量差异的)数量标志进行分层,然后,按主要的(与研究指标直接有关的)数量标志进行分块,即根据所研究的指标,对各层的单位按其标志值的高低进行排队,从而合理地确定分块的数量界限,将全及总体划分为内部性质十分相近的若干块,使块内各单位标志值之间差异减少,各
[期刊] 统计与决策
[作者]
刘源 尹慧萍 朱建平
文章基于对平稳时间序列数据的随机抽取,选用AR模型研究其模型定阶方法和参数评估准则。根据数据有序性的特点,提出利用交叉验证的方法确定自回归模型阶数,并通过对原数据的无放回抽取实现对系数参数估计的评估。实例分析结果表明,交叉验证的定阶与AIC准则定阶结果保持较高一致性,新的参数评估在一定的模型误差范围内可以得到更为简单有效的系数估计区间。
关键词:
随机抽取 AR模型 模型定阶 参数评估
[期刊] 统计与决策
[作者]
刘源 尹慧萍 朱建平
文章基于对平稳时间序列数据的随机抽取,选用AR模型研究其模型定阶方法和参数评估准则。根据数据有序性的特点,提出利用交叉验证的方法确定自回归模型阶数,并通过对原数据的无放回抽取实现对系数参数估计的评估。实例分析结果表明,交叉验证的定阶与AIC准则定阶结果保持较高一致性,新的参数评估在一定的模型误差范围内可以得到更为简单有效的系数估计区间。
关键词:
随机抽取 AR模型 模型定阶 参数评估
[期刊] 实验技术与管理
[作者]
唐贤伦 丁河长 唐瑜泽 谢涛 罗洪平
关系抽取是信息抽取中的一项重要任务,其目的是从非结构化文本中抽取出所有关系三元组。然而,如何有效地处理这一问题仍然是一个挑战,特别是对于关系重叠问题。为了有效处理重叠问题,该文提出一种基于异构图和语义融合的实体关系抽取方法:使用异构图将关系信息作为先验知识融入词表示,增强词表示的表示能力,使得模型能有效地处理单词实体重叠问题;使用语义融合模块将不同层次特征融合在一起作为关系分类模型的输入,使得模型能够有效地处理实体对重叠问题。所提方法在NYT和WebNLG数据集上取得了最好的效果,详细的实验也表明所提方法可以处理复杂的场景。
[期刊] 图书情报工作
[作者]
魏巍 郑杜
[目的/意义]社交媒体的出现为医疗健康数据的收集提供了新的途径,应用自然语言处理技术从社交媒体中抽取患者报告的ADR(AdverseDrugReaction,药物不良反应)信号对于改善药物不良反应监测的临床和科学知识具有很大的潜力。然而,从社会媒体中提取患者报告的ADR信号仍然面临重大挑战。为此,开发一个利用高级自然语言处理技术从健康主题社交媒体中抽取ADR信号的研究模型。[方法/过程]该模型首先采用基于多词典源匹配的方法,从嘈杂的社交媒体中识别医学实体;然后采用最短依存路径核函数为基础的统计学习方法提取
[期刊] 情报理论与实践
[作者]
朱红灿 邹凯
互联网网页是通过超链接连接起来的,为人们的日常生活和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域发挥着越来越重要的作用。然而存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种有监督机器学习方法自动地抽取网页中的相关链接。试验结果表明该算法具有实用的价值。
关键词:
机器学习 链接抽取 主题漂移 贝叶斯算法
[期刊] 情报理论与实践
[作者]
丁君军 郑彦宁 化柏林
学术文献作为科研成果的结晶,蕴含着丰富的知识,属性抽取作为知识抽取的一种应用,是把不同学术文献中对于某一学术概念的属性描述集中起来,用来构建属性描述知识库。本文通过人工构建规则的方法,形成了属性抽取的九大类描述规则,并对属性描述进行了数量关系和情感信息方面的分析,然后对学术概念属性抽取系统进行设计和实现,并对《情报学报》2007年和2008年的文章进行抽取实验,对系统抽取的结果和人工标记的结果进行了测评,并进行了实验结果的分析。
关键词:
知识抽取 规则构建 学术定义 概念
[期刊] 情报理论与实践
[作者]
张思凤 梁梦丽 曹高辉
[目的/意义]主题抽取的效果对于信息检索、自动标引、自然语言处理具有重要的价值,提高主题抽取的效果,既能改善检索系统主题检索准确性,又能够帮助学者更加高效地了解文献的主要思想。文章研究并探讨了从引用内容中抽取文献主题的有效性。[方法/过程]选取自然语言处理领域文献为研究对象,利用文献之间的引用与被引用关系抽取引用内容,进行分词并计算权重;将引用内容、全文抽取的候选词进行专家打分评价效果并将其与关键词对比,使用F值评价两种语料库抽取候选词的优劣。[结果/结论]通过专家打分及计算F值,发现引用内容在抽取候选词
关键词:
科技文献 引文 主题抽取 关键词
[期刊] 情报理论与实践
[作者]
洪娜 张智雄 刘建华
本文通过对国内外OBIE理论和OBIE系统的分析,比较了OBIE技术与传统信息抽取技术的主要区别,归纳了4种主要的技术方法,分别是基于实例的OBIE,基于规则的OBIE以及基于机器学习的OBIE和Ontology驱动的OBIE,并用案例对各种技术方法做了阐释,最后总结了OBIE研究和系统开发中存在的难点问题。
关键词:
本体 信息抽取 信息技术
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除