- 年份
- 2024(8650)
- 2023(12422)
- 2022(10473)
- 2021(9811)
- 2020(8156)
- 2019(18344)
- 2018(18361)
- 2017(34909)
- 2016(18747)
- 2015(21249)
- 2014(21033)
- 2013(20060)
- 2012(18138)
- 2011(15941)
- 2010(15363)
- 2009(13693)
- 2008(12747)
- 2007(10838)
- 2006(9059)
- 2005(7588)
- 学科
- 济(73855)
- 经济(73775)
- 管理(54014)
- 业(47145)
- 企(38849)
- 企业(38849)
- 方法(34487)
- 数学(30396)
- 数学方法(29886)
- 农(19608)
- 财(19064)
- 地方(18513)
- 中国(17687)
- 业经(15992)
- 学(15150)
- 农业(13263)
- 理论(13087)
- 制(12985)
- 务(12536)
- 财务(12474)
- 财务管理(12443)
- 企业财务(11755)
- 环境(11603)
- 和(11533)
- 技术(11265)
- 贸(10700)
- 贸易(10695)
- 体(10366)
- 易(10311)
- 地方经济(10020)
- 机构
- 学院(250314)
- 大学(249704)
- 管理(99972)
- 济(95230)
- 经济(93107)
- 理学(86854)
- 理学院(85905)
- 管理学(84179)
- 管理学院(83696)
- 研究(77744)
- 中国(58809)
- 京(51952)
- 科学(49143)
- 财(43568)
- 农(38937)
- 中心(38879)
- 业大(38073)
- 江(36841)
- 所(36643)
- 财经(35393)
- 范(33909)
- 研究所(33640)
- 师范(33511)
- 经(32210)
- 北京(31250)
- 农业(30634)
- 院(29634)
- 州(29494)
- 经济学(28685)
- 技术(28379)
- 基金
- 项目(181786)
- 科学(144235)
- 研究(133831)
- 基金(132090)
- 家(115024)
- 国家(114095)
- 科学基金(99516)
- 社会(84307)
- 社会科(79827)
- 社会科学(79810)
- 省(72092)
- 基金项目(70566)
- 自然(64969)
- 自然科(63474)
- 自然科学(63455)
- 自然科学基金(62282)
- 教育(62158)
- 划(60512)
- 编号(55470)
- 资助(52793)
- 成果(43938)
- 重点(40647)
- 部(39426)
- 发(39108)
- 创(38091)
- 课题(37177)
- 创新(35675)
- 国家社会(35180)
- 科研(35133)
- 项目编号(34342)
共检索到354131条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
朱恒民 马静 黄卫东
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。
关键词:
主题抽取 领域本体 文本挖掘
[期刊] 图书情报工作
[作者]
陈俊彬 曹树金
针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。
[期刊] 情报理论与实践
[作者]
李广建 乔建忠
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。
关键词:
信息抽取 包装器 信息技术 深层网
[期刊] 图书情报工作
[作者]
董旻 方曙
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。
[期刊] 数字图书馆论坛
[作者]
黄政 张学福
本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法在OA期刊资源采集适用性,提出一种基于OA期刊网页元数据抽取的采集方法,并在此方法的基础上设计了采集系统。通过对国内外不遵循OAI-PMH协议的10本OA期刊的网站实证采集,得到45 785篇论文的元数据,证明该采集方法能有效地应用于此类资源采集。研究丰富了
[期刊] 情报理论与实践
[作者]
高庆宁 吴鹏 张晶晶
[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。
关键词:
文档对象模型 算法 网页 信息抽取
[期刊] 情报理论与实践
[作者]
耿焕同 宋庆席 何宏强
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点。结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法。
关键词:
网络 信息抽取 视觉分块
[期刊] 情报理论与实践
[作者]
洪娜 张智雄 刘建华
本文通过对国内外OBIE理论和OBIE系统的分析,比较了OBIE技术与传统信息抽取技术的主要区别,归纳了4种主要的技术方法,分别是基于实例的OBIE,基于规则的OBIE以及基于机器学习的OBIE和Ontology驱动的OBIE,并用案例对各种技术方法做了阐释,最后总结了OBIE研究和系统开发中存在的难点问题。
关键词:
本体 信息抽取 信息技术
[期刊] 图书馆理论与实践
[作者]
阳广元
以国内2002年1月至2016年5月间发表的与基于本体的信息抽取有关的期刊文献为分析对象,运用内容分析法从领域本体的构建及基于本体的信息抽取方法、信息抽取模型、信息抽取算法、信息抽取系统、信息抽取的应用领域等6个方面对国内该领域的研究现状与热点进行分析,认为目前国内该研究领域具有研究内容从理论走向实践、研究主体多样性、尚未形成核心作者和核心团队等特点,指出本体构建的自动化及基于本体的信息抽取的评估机制、信息抽取的实践应用将成为未来的发展趋势。
[期刊] 情报理论与实践
[作者]
钱爱兵 江岚
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。
关键词:
词频 逆文档频率 新闻网页 关键词抽取
[期刊] 情报理论与实践
[作者]
赵洁 金培权
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题。本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论。在此基础上讨论了Web时态信息的本体表示问题。最后,预测了Web时态信息抽取与检索的若干未来发展方向。
关键词:
信息抽取 信息检索 网络
[期刊] 情报理论与实践
[作者]
聂卉 张津华
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
关键词:
网页 信息抽取 主题分析
[期刊] 情报学报
[作者]
蒋婷 孙建军
等级关系抽取是领域本体自动构建的必经阶段,目前研究主要集中在生物医学领域,此外还存在现有方法效率不高的问题。本文提出一种面向领域学术资源的概念等级关系抽取的方法。首先,从概念抽取阶段开始,将学术文献中的概念分为方法/任务/工具/资源类术语,采用层叠条件随机场与C-value和规则相结合的方法分别对各个术语类型进行抽取,得到初始的分类术语;其次,在已有的术语类别限定下,结合外部词库和基于Web的方法抽取等级关系概念对;最后,采用基于图的方法将概念对生成图模型,再利用图剪枝方法生成概念等级关系。实验采用领域学
关键词:
本体构建 等级关系抽取 术语抽取
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除