- 年份
- 2024(6408)
- 2023(9441)
- 2022(8077)
- 2021(7775)
- 2020(6636)
- 2019(15471)
- 2018(15429)
- 2017(30260)
- 2016(15837)
- 2015(18185)
- 2014(17780)
- 2013(16956)
- 2012(15121)
- 2011(13221)
- 2010(12928)
- 2009(11621)
- 2008(11059)
- 2007(9205)
- 2006(7807)
- 2005(6509)
- 学科
- 济(61482)
- 经济(61424)
- 管理(47092)
- 业(44479)
- 企(38492)
- 企业(38492)
- 方法(35393)
- 数学(31821)
- 数学方法(31170)
- 财(16426)
- 银(14917)
- 银行(14912)
- 制(14359)
- 农(14261)
- 中国(14105)
- 行(13901)
- 业经(13622)
- 理论(11944)
- 务(11827)
- 财务(11764)
- 财务管理(11741)
- 企业财务(11189)
- 学(10811)
- 技术(10306)
- 融(10103)
- 金融(10102)
- 贸(10013)
- 贸易(10004)
- 易(9748)
- 地方(9722)
- 机构
- 大学(211796)
- 学院(211641)
- 管理(90430)
- 济(83550)
- 经济(81936)
- 理学(79044)
- 理学院(78321)
- 管理学(76569)
- 管理学院(76170)
- 研究(60570)
- 中国(50695)
- 京(42829)
- 财(38359)
- 科学(36978)
- 财经(31760)
- 农(31482)
- 中心(31257)
- 业大(30904)
- 江(29959)
- 经(29076)
- 所(27917)
- 北京(25816)
- 经济学(25801)
- 研究所(25694)
- 范(25458)
- 师范(25185)
- 农业(24876)
- 州(24349)
- 财经大学(24159)
- 经济学院(23516)
- 基金
- 项目(153382)
- 科学(122830)
- 基金(114063)
- 研究(110738)
- 家(99001)
- 国家(98257)
- 科学基金(87029)
- 社会(70532)
- 社会科(67083)
- 社会科学(67066)
- 基金项目(60322)
- 省(59721)
- 自然(58364)
- 自然科(57149)
- 自然科学(57139)
- 自然科学基金(56106)
- 教育(52764)
- 划(50173)
- 资助(47390)
- 编号(45432)
- 成果(34940)
- 重点(34077)
- 部(33931)
- 创(32818)
- 发(31504)
- 创新(30611)
- 科研(30057)
- 教育部(29795)
- 国家社会(29645)
- 大学(29422)
共检索到294735条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
高庆宁 吴鹏 张晶晶
[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。
关键词:
文档对象模型 算法 网页 信息抽取
[期刊] 情报理论与实践
[作者]
聂卉 张津华
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
关键词:
网页 信息抽取 主题分析
[期刊] 图书馆理论与实践
[作者]
艾金勇
通过分析总结藏文网页的结构特征,在借鉴汉语主题句抽取方法的基础上,提出了结合语义信息的藏文网页主题句抽取算法。该方法根据藏文文本特征实现了网页内容的智能识别,同时,在对识别的文本块进行自动分词后,利用改进TF-IDF方法结合主题词的语义相关性确定了网页文本的主题词,并据此构建了候选主题句集,再通过候选主题句的重要度和分布度计算得到了候选主题句的权值。最后对所有候选主题句按权值大小排序并确定了文本的主题句。
关键词:
藏文网页 语义信息 主题句 抽取
[期刊] 图书情报工作
[作者]
俞琰 鞠鹏 尚明杰
[目的/意义]针对目前专利关键词抽取算法评价中主要采用抽取的关键词与专家人工标注关键词进行匹配存在的问题,提出一种基于信息增益与相似度的专利关键词抽取算法评价模型。[方法/过程]提出的评价模型从内部和外部两个层面评估专利关键词抽取算法的准确性。其中,内部评价模型度量待评价算法抽取的每个关键词的信息增益,以评估被抽取的关键词的新颖性与创造性;外部评价模型使用待评价算法抽取的关键词集表示专利,计算相关专利的相似度,衡量算法抽取的关键词描述专利主题的有效性。[结果/结论]通过评价模型有效性验证实验与评价模型应用实证研究,结果表明提出的基于信息增益与相似度的评价模型具有可行性与有效性。
关键词:
专利 关键词抽取 评价 信息增益 相似度
[期刊] 数字图书馆论坛
[作者]
黄政 张学福
本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法在OA期刊资源采集适用性,提出一种基于OA期刊网页元数据抽取的采集方法,并在此方法的基础上设计了采集系统。通过对国内外不遵循OAI-PMH协议的10本OA期刊的网站实证采集,得到45 785篇论文的元数据,证明该采集方法能有效地应用于此类资源采集。研究丰富了
[期刊] 情报理论与实践
[作者]
李广建 乔建忠
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。
关键词:
信息抽取 包装器 信息技术 深层网
[期刊] 情报理论与实践
[作者]
钱爱兵 江岚
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。
关键词:
词频 逆文档频率 新闻网页 关键词抽取
[期刊] 情报学报
[作者]
赵洪 王芳
理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。
[期刊] 中南林业科技大学学报
[作者]
季秀兰 熊拥军
识别存在于大量的WEB网页中的不良信息的非法文本,并将其有效屏蔽,是未来信息过滤研究的新领域。在传统方法的基础上,在对抓取到的网页进行预处理后,设置加权的关键字词典;应用汉语语料库里同类词的概念,从词汇关联的角度出发,最终提出了基于同类词权重均值的关联过滤算法。最后,从两个角度进行算法评估,该过滤算法更为高效,并且能够很好的应对不良网站的反关键字过滤策略。
关键词:
网页过滤 矩阵词典 权重均值
[期刊] 情报学报
[作者]
李志义 王冕 赵鹏武
自媒体环境下对海量评价信息进行情感分析与监控已越发重要,它不仅可推动观点挖掘的深入研究,而且可帮助企业探索用户需求以产生巨大的商业价值。本文在条件随机场模型(CRFs)的基础上,结合句法特性,通过实验选取合适的句法特性组合,寻找评价特征提取的路径;其次,构建了手机领域的评论语料库。然后,利用句法分析器把评论短句分解成相应的句法树,分析评价特征词和评价词之间存在的依存关系以及观点信息的完整性结构,利用算法将〈评价特征,评价词〉对从评论语料中抽取出来。提出了基于依存语法的〈评价特征,评价词〉对抽取方法,利用A
[期刊] 图书情报工作
[作者]
陈德鑫 占袁圆 杨兵 谢亚霓
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。
[期刊] 统计与决策
[作者]
刘源 尹慧萍 朱建平
文章基于对平稳时间序列数据的随机抽取,选用AR模型研究其模型定阶方法和参数评估准则。根据数据有序性的特点,提出利用交叉验证的方法确定自回归模型阶数,并通过对原数据的无放回抽取实现对系数参数估计的评估。实例分析结果表明,交叉验证的定阶与AIC准则定阶结果保持较高一致性,新的参数评估在一定的模型误差范围内可以得到更为简单有效的系数估计区间。
关键词:
随机抽取 AR模型 模型定阶 参数评估
[期刊] 统计与决策
[作者]
刘源 尹慧萍 朱建平
文章基于对平稳时间序列数据的随机抽取,选用AR模型研究其模型定阶方法和参数评估准则。根据数据有序性的特点,提出利用交叉验证的方法确定自回归模型阶数,并通过对原数据的无放回抽取实现对系数参数估计的评估。实例分析结果表明,交叉验证的定阶与AIC准则定阶结果保持较高一致性,新的参数评估在一定的模型误差范围内可以得到更为简单有效的系数估计区间。
关键词:
随机抽取 AR模型 模型定阶 参数评估
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除