- 年份
- 2024(5094)
- 2023(7355)
- 2022(6265)
- 2021(6031)
- 2020(5123)
- 2019(11783)
- 2018(11570)
- 2017(22486)
- 2016(11815)
- 2015(13093)
- 2014(12626)
- 2013(12093)
- 2012(10748)
- 2011(9349)
- 2010(8783)
- 2009(7395)
- 2008(6724)
- 2007(5127)
- 2006(3977)
- 2005(2961)
- 学科
- 济(45317)
- 经济(45274)
- 管理(33857)
- 业(31680)
- 企(26474)
- 企业(26474)
- 方法(25692)
- 数学(23547)
- 数学方法(23164)
- 财(12707)
- 农(11121)
- 中国(10805)
- 业经(9037)
- 务(8545)
- 财务(8512)
- 财务管理(8490)
- 企业财务(8079)
- 地方(7877)
- 贸(7760)
- 贸易(7756)
- 易(7555)
- 农业(7500)
- 学(7406)
- 技术(7387)
- 环境(6852)
- 和(6802)
- 制(6685)
- 理论(6562)
- 划(6278)
- 银(5309)
- 机构
- 大学(149030)
- 学院(148275)
- 管理(63834)
- 济(61897)
- 经济(60800)
- 理学(56725)
- 理学院(56166)
- 管理学(55096)
- 管理学院(54789)
- 研究(44363)
- 中国(33050)
- 京(29791)
- 财(26936)
- 科学(26551)
- 财经(22512)
- 中心(22337)
- 业大(22213)
- 经(20846)
- 农(20732)
- 江(19860)
- 经济学(19410)
- 所(19220)
- 范(18299)
- 师范(18112)
- 研究所(17821)
- 经济学院(17753)
- 院(17490)
- 北京(17457)
- 财经大学(17259)
- 经济管理(17000)
- 基金
- 项目(114340)
- 科学(92435)
- 基金(86357)
- 研究(82644)
- 家(75221)
- 国家(74666)
- 科学基金(66376)
- 社会(54214)
- 社会科(51641)
- 社会科学(51630)
- 基金项目(46318)
- 自然(44147)
- 省(43457)
- 自然科(43205)
- 自然科学(43196)
- 自然科学基金(42402)
- 教育(38541)
- 划(37433)
- 资助(34572)
- 编号(32596)
- 部(25976)
- 重点(25481)
- 创(24588)
- 成果(24034)
- 发(23875)
- 国家社会(23418)
- 创新(23002)
- 科研(22846)
- 教育部(22797)
- 人文(22316)
共检索到198874条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
聂卉 张津华
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
关键词:
网页 信息抽取 主题分析
[期刊] 图书馆理论与实践
[作者]
艾金勇
通过分析总结藏文网页的结构特征,在借鉴汉语主题句抽取方法的基础上,提出了结合语义信息的藏文网页主题句抽取算法。该方法根据藏文文本特征实现了网页内容的智能识别,同时,在对识别的文本块进行自动分词后,利用改进TF-IDF方法结合主题词的语义相关性确定了网页文本的主题词,并据此构建了候选主题句集,再通过候选主题句的重要度和分布度计算得到了候选主题句的权值。最后对所有候选主题句按权值大小排序并确定了文本的主题句。
关键词:
藏文网页 语义信息 主题句 抽取
[期刊] 情报理论与实践
[作者]
高庆宁 吴鹏 张晶晶
[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。
关键词:
文档对象模型 算法 网页 信息抽取
[期刊] 情报理论与实践
[作者]
钱爱兵 江岚
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。
关键词:
词频 逆文档频率 新闻网页 关键词抽取
[期刊] 数字图书馆论坛
[作者]
黄政 张学福
本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法在OA期刊资源采集适用性,提出一种基于OA期刊网页元数据抽取的采集方法,并在此方法的基础上设计了采集系统。通过对国内外不遵循OAI-PMH协议的10本OA期刊的网站实证采集,得到45 785篇论文的元数据,证明该采集方法能有效地应用于此类资源采集。研究丰富了
[期刊] 情报理论与实践
[作者]
李广建 乔建忠
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。
关键词:
信息抽取 包装器 信息技术 深层网
[期刊] 图书馆
[作者]
郑章飞 赖宁
本文强调网页页面合理组合对读者( 用户) 具有强烈吸引力。论述了高校图书馆网页页面应具有的各种功能和合理的色彩搭配对网页使用效果的积极影响,并指出专业层面和艺术层面的完美结合也是高质量网页的体现。
[期刊] 图书情报工作
[作者]
阮光册
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。
关键词:
Web规则挖掘 网络用户行为 聚类分析
[期刊] 情报学报
[作者]
韩客松 王永成 滕伟
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。
关键词:
Web页面文本 主题抽取 加权
[期刊] 图书馆工作与研究
[作者]
陈天伦 李萍
公共图书馆参与主题网页的信息整合工作,推送某一领域或主题的相关信息,是一种针对特定群体的知识服务。文章基于参与网络主题信息推送工作的实践,探讨这种知识服务的活动模式、寻找发现相关文献的方法、思考编辑高质量文摘的策略、审视构建特色知识库的思路。
[期刊] 情报理论与实践
[作者]
张思凤 梁梦丽 曹高辉
[目的/意义]主题抽取的效果对于信息检索、自动标引、自然语言处理具有重要的价值,提高主题抽取的效果,既能改善检索系统主题检索准确性,又能够帮助学者更加高效地了解文献的主要思想。文章研究并探讨了从引用内容中抽取文献主题的有效性。[方法/过程]选取自然语言处理领域文献为研究对象,利用文献之间的引用与被引用关系抽取引用内容,进行分词并计算权重;将引用内容、全文抽取的候选词进行专家打分评价效果并将其与关键词对比,使用F值评价两种语料库抽取候选词的优劣。[结果/结论]通过专家打分及计算F值,发现引用内容在抽取候选词
关键词:
科技文献 引文 主题抽取 关键词
[期刊] 情报理论与实践
[作者]
吴思竹 张智雄
本文通过对网页结构和内容特征的深入分析和识别,对噪音网页的过滤方法进行研究和实验。首先利用阈值过滤具有明显特征的噪音网页,而后建立网页特征向量,利用SVM对网页进行分类。采用采集自Web的网页数据进行实验分析,最后得出研究结论,并展望下一步工作。
关键词:
网络资源 噪音网页 过滤方法
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除