- 年份
- 2024(6161)
- 2023(9057)
- 2022(8119)
- 2021(7821)
- 2020(6555)
- 2019(15262)
- 2018(15370)
- 2017(29996)
- 2016(16316)
- 2015(18357)
- 2014(18318)
- 2013(18063)
- 2012(16379)
- 2011(14671)
- 2010(14371)
- 2009(12781)
- 2008(12220)
- 2007(10396)
- 2006(8895)
- 2005(7540)
- 学科
- 济(62030)
- 经济(61962)
- 管理(45997)
- 业(43135)
- 企(36317)
- 企业(36317)
- 方法(31218)
- 数学(27071)
- 数学方法(26771)
- 农(15901)
- 中国(15547)
- 财(15153)
- 学(14085)
- 业经(13674)
- 地方(12943)
- 理论(11020)
- 和(10803)
- 贸(10798)
- 贸易(10792)
- 农业(10725)
- 易(10466)
- 技术(10208)
- 环境(10082)
- 制(9831)
- 务(9749)
- 财务(9692)
- 财务管理(9674)
- 教育(9198)
- 企业财务(9159)
- 划(8833)
- 机构
- 大学(225464)
- 学院(222550)
- 管理(93476)
- 济(84128)
- 经济(82195)
- 理学(81947)
- 理学院(81065)
- 管理学(79687)
- 管理学院(79288)
- 研究(71450)
- 中国(51375)
- 京(48206)
- 科学(46441)
- 财(36944)
- 所(35112)
- 业大(34724)
- 农(34073)
- 研究所(32406)
- 中心(32279)
- 江(30434)
- 北京(30406)
- 财经(30339)
- 范(29814)
- 师范(29572)
- 经(27681)
- 农业(26690)
- 院(26298)
- 州(25399)
- 师范大学(24092)
- 经济学(24030)
- 基金
- 项目(160885)
- 科学(125952)
- 研究(118032)
- 基金(116313)
- 家(100947)
- 国家(100123)
- 科学基金(86386)
- 社会(72247)
- 社会科(68403)
- 社会科学(68384)
- 基金项目(63046)
- 省(62761)
- 自然(57466)
- 自然科(56108)
- 自然科学(56097)
- 自然科学基金(55057)
- 教育(53703)
- 划(52866)
- 编号(48987)
- 资助(47658)
- 成果(39135)
- 重点(35257)
- 部(35060)
- 发(33608)
- 创(33461)
- 课题(32678)
- 创新(31092)
- 科研(30882)
- 项目编号(30704)
- 大学(30070)
共检索到310710条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报学报
[作者]
韩客松 王永成 滕伟
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。
关键词:
Web页面文本 主题抽取 加权
[期刊] 情报理论与实践
[作者]
尹桂秀
This article introduces a Chinese text automatic classification method,including its principle and classification process.The article focuses on some key theoretical problems,such as word classification,keyword collection and keyword matching.
[期刊] 情报学报
[作者]
王永成 顾晓明 王丽霞
本文介绍了上海交通大学电脑应用技术研究所开发的中文文献主题自动标引系统CSAIS2.1的主要思路、基本算法及其基本结构
关键词:
自动标引,中文文献,主题词
[期刊] 情报理论与实践
[作者]
朱恒民 马静 黄卫东
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。
关键词:
主题抽取 领域本体 文本挖掘
[期刊] 图书情报工作
[作者]
余凡 程虹 楼雯
针对目前适用于中文文本非等级关系提取方法偏少以及关联规则筛选方法忽略了集中出现在部分文本集中的领域词汇关系的问题,通过对中文文本的统计分析,尝试定义一套中文非等级关系提取的规则,同时提出一种加入平均值变量的改进的关联规则。实践证明,基于自定义的语法规则提取方法能够有效地从中文文本中提取出主、谓、宾语,进而提取出非等级关系,改进的关联规则方法能够提取出集中出现在部分文本集中的领域词汇非等级关系。
[期刊] 情报理论与实践
[作者]
聂卉 张津华
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
关键词:
网页 信息抽取 主题分析
[期刊] 情报学报
[作者]
王梦云 曹素青
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。
[期刊] 情报学报
[作者]
王永成 张坤
本文对作者开发的两个中文文献自动分类系统的工作原理、方法、数学模型和实现技术进行了比较全面的介绍。
[期刊] 图书情报工作
[作者]
俞琰 赵乃瑄
[目的 /意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法 /过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果 /结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。
关键词:
专利文本 主题建模 领域停用词 自动选取
[期刊] 情报科学
[作者]
王静茹 陈震
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数据时,
[期刊] 情报理论与实践
[作者]
何超 张玉峰
针对传统的中文文本特征提取算法存在的语义丢失和语义缺乏问题,设计了融合领域本体的中文文本语义特征提取算法。该算法利用基于种子—扩展机制的关键词识别与提取算法解决传统算法中利用分词工具进行关键词提取所产生的语义丢失问题;利用基于领域本体的文本概念特征语义映射与聚合算法解决传统算法中利用向量空间模型进行文本表示所产生的高维和语义缺乏问题。实验结果表明,该算法取得了很好的预期效果,能够显著提高文本特征提取的深度和准确性。
关键词:
文本语义特征 领域本体 算法
[期刊] 图书情报工作
[作者]
薛春香 张玉芳
在对文本分类及中文新闻分类概述的基础上,归纳出网络新闻文本特征及当前新闻文本分类特点,并总结新闻文本分类在新闻网站分类导航、话题识别与跟踪、个性化推荐三方面的应用。其后,总结中文新闻分类存在的问题,诸如缺乏通用语料和评价方法、分类体系粗略、分类维度单一等,并提出相应措施。最后,针对当前信息环境,提出新闻分类不仅将朝着多层次、多维度、跨语言方向发展,还将与多媒体信息、大数据、社会化媒体相结合。
[期刊] 图书情报工作
[作者]
姜春涛
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程]设计两种运用图结构的模型:1基于关键词的文本图模型;2基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘,并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能...
[期刊] 情报理论与实践
[作者]
叶新明
概要性地论述了中文文献自动分类的问题,提出了中文文献自动分类的一般模式, 同时也分析了要实现中文文献自动分类目前所面临的一些实际问题。
关键词:
自动分类 自动抽词 自动标引
[期刊] 中南林业科技大学学报
[作者]
何岸 胡伟刚
为了提高水印的鲁棒性,适应文本完整性检测的需求,很多文献提倡多组水印的冗余嵌入方法,这涉及到文本分块问题。根据中文汉字的结构,研究并提出了一种中文文本分块设计方法以及水印嵌入算法。该方法具有明显的中文文字特色,能有效提高水印的鲁棒性,提高受攻击后水印的恢复能力。
关键词:
文本分块 汉字结构 鲁棒性
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除