- 年份
- 2024(1660)
- 2023(2643)
- 2022(2241)
- 2021(2016)
- 2020(1817)
- 2019(3909)
- 2018(3967)
- 2017(7475)
- 2016(4052)
- 2015(4668)
- 2014(4485)
- 2013(4336)
- 2012(3985)
- 2011(3496)
- 2010(3656)
- 2009(3350)
- 2008(3473)
- 2007(3061)
- 2006(2650)
- 2005(2423)
- 学科
- 济(14169)
- 经济(14152)
- 管理(11755)
- 业(11198)
- 企(10204)
- 企业(10204)
- 方法(8503)
- 数学(7388)
- 数学方法(7077)
- 学(5741)
- 财(5713)
- 务(4633)
- 财务(4616)
- 财务管理(4611)
- 企业财务(4464)
- 税(4463)
- 税收(4118)
- 收(4085)
- 制(3114)
- 土地(2873)
- 农(2609)
- 理论(2545)
- 中国(2519)
- 和(2442)
- 业经(2329)
- 法(2284)
- 体(2187)
- 技术(2125)
- 策(1960)
- 环境(1959)
- 机构
- 大学(59139)
- 学院(57988)
- 管理(21855)
- 研究(19926)
- 济(19287)
- 理学(18776)
- 经济(18722)
- 理学院(18527)
- 管理学(17856)
- 管理学院(17763)
- 中国(16190)
- 科学(14518)
- 京(13041)
- 所(10846)
- 财(10769)
- 农(10170)
- 研究所(9933)
- 中心(9698)
- 业大(9523)
- 江(8842)
- 财经(8589)
- 北京(8349)
- 农业(8109)
- 经(7759)
- 院(7718)
- 范(7695)
- 师范(7607)
- 省(7100)
- 州(6931)
- 工程(6431)
- 基金
- 项目(40678)
- 科学(32265)
- 基金(30920)
- 家(28285)
- 国家(28114)
- 研究(26135)
- 科学基金(24058)
- 自然(17729)
- 自然科(17355)
- 自然科学(17352)
- 自然科学基金(17006)
- 基金项目(15809)
- 社会(15787)
- 社会科(15003)
- 社会科学(14995)
- 省(14908)
- 资助(13605)
- 划(13484)
- 教育(11792)
- 编号(10219)
- 重点(9581)
- 计划(8637)
- 部(8598)
- 成果(8473)
- 科研(8451)
- 发(7675)
- 创(7607)
- 科技(7338)
- 创新(7221)
- 大学(7090)
共检索到85209条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 图书情报工作
[作者]
路永和 李焰锋
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
[期刊] 情报科学
[作者]
周源 刘怀兰 杜朋朋 廖岭
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。
[期刊] 图书情报工作
[作者]
陈白雪 宋培彦
[目的/意义]从用户角度出发,研究基于用户自然标注的TF?IDF辅助标引算法。[方法/过程]首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF?IDF算法构建用户标注词表、形成标引知识库,然后通过IKAnalyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF?IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果 /结论]实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总
[期刊] 数据分析与知识发现
[作者]
白如江 冷伏海 廖君华
【目的】利用文本语义组块特征提升Cosine文本相似度计算性能。【方法】获取NSF资助的关于碳纳米管研究领域的项目数据,进行词干还原、词性标注等预处理;利用条件随机场模型实现文本内容的语义组块标注;在此基础上实现基于语义组块特征的改进Cosine文本相似度计算,并与未标注的数据进行相似度计算比较,分析实验结果。【结果】实验证明基于语义组块特征的改进Cosine相似度计算结果比原始文本Cosine相似度计算结果相似度均有不同程度的提升,在实验数据中最高的相似度提升了26%。【局限】依赖于语义组块标注性能。【
关键词:
文本相似度 语义组块 向量空间模型 本体
[期刊] 审计研究
[作者]
张勇 殷健
本文利用TF-IDF的文本相似度分析方法考察了会计师事务所联结对企业会计政策相似性的影响。研究发现,与不存在会计师事务所联结的两家企业相比,存在会计师事务所联结的两家企业的会计政策相似性水平更高;本年度,若两家企业由上年度不存在事务所联结关系变更为存在联结关系,则其会计政策相似性水平会上升。进一步研究表明,在会计师事务所联结的配对企业中,与规模小的会计师事务所相比,规模大的会计师事务所联结的两家企业会计政策相似性水平更高;本年度,若两家企业的事务所规模由上年度的小所变更为大所,则其会计政策相似性水平会上升。事务所向其联结的两家企业派遣的审计师重合程度越高,那么企业之间的会计政策相似性水平越高;若两家企业当年的审计师重合程度高于上年度,则其会计政策相似性水平会上升。
[期刊] 情报理论与实践
[作者]
钱爱兵 江岚
结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。
关键词:
词频 逆文档频率 新闻网页 关键词抽取
[期刊] 情报科学
[作者]
刘小慧 李长玲 冯志刚
【目的/意义】提出一种TF*IDF改进算法,用于全文分词后的语词权重计算,提取高权重语词,分析学科研究热点。【方法/过程】以万方数据库中2015年《情报学报》的载文为例,对每篇文章全文分词,用改进的TF*IDF方法计算语词权重。【结果/结论】发现该改进算法准确可行,且运用该方法分析得到,用户研究、大数据、情报学、社交网络、技术领域、文献作者、突发事件、零被引等,是2015年情报学的研究热点。
关键词:
研究热点 TF*IDF 全文分词 情报学
[期刊] 图书馆杂志
[作者]
齐佳 徐建民
针对传统微博网络用户影响力度量方法中用户关系不明确、时间特征不明显的问题,从网络结构、交互行为和时间3个角度考虑影响力的个体差异,提出一种基于改进HITS算法的微博用户影响力计算方法。该方法以用户间动态交互行为作为切入点,选择其动态交互强度作为改进算法的边权重,通过sigmoid函数对中心值进行修正,整合用户的权威值和中心值量化用户影响力,提高算法的适应性,计算结果更为合理,为微博用户影响力计算提供了新的思路。以新浪微博为实验对象,实验结果表明,该方法相对于传统影响力计算方法,在DCG值、查准率、召回率和F值评价指标方面均有所提升。
[期刊] 统计与决策
[作者]
程子晋 谷伟
文章从VaR方法的定义出发,首先对VaR值的两种基本计算方法进行阐述,进而基于核密度估计,提出一种改进的VaR值计算方法。该改进方法将蒙特卡罗模拟法引入到核密度估计规则,并且考虑四分位距来构造核密度估计的窗宽,对股市收益率的变异性以及高峰厚尾现象进行了更好地刻画。实证验证了改进的VaR值计算方法的有效性及优越性。
[期刊] 统计与决策
[作者]
程子晋 谷伟
文章从VaR方法的定义出发,首先对VaR值的两种基本计算方法进行阐述,进而基于核密度估计,提出一种改进的VaR值计算方法。该改进方法将蒙特卡罗模拟法引入到核密度估计规则,并且考虑四分位距来构造核密度估计的窗宽,对股市收益率的变异性以及高峰厚尾现象进行了更好地刻画。实证验证了改进的VaR值计算方法的有效性及优越性。
[期刊] 淡水渔业
[作者]
孟彦 肖汉兵 田海峰
探讨了大鲵(Andrias davidianus)胚胎发育过程中受精率的评判标准和计算受精率的最佳时间。对大鲵胚胎发育观察表明:发育到二细胞的胚胎均能发育到神经胚期,因此可以将二细胞胚胎期作为受精的标志;孵化温度在17~20℃时,温度对大鲵的孵化率没有影响;胚胎发育经过24 h后,有90%~95%的受精卵可发育到二细胞期。因此可以以受精后24 h的二细胞分裂数作为计算大鲵胚胎受精率的基础数据。研究结果有利于对大鲵人工繁育效果提前判断和对孵化条件及时调控处理。
[期刊] 统计与决策
[作者]
钱进 吴金美 凌晓冬
一、引言测量数据的处理大多转化为回归模型的参数估计问题,其中线性回归模型是最基本的一类。若测量过程中影响随机误差的各因素保持不变,则认为是等精度测量,对应的线性回归模型就是等精度线性回归模型,其参数估计理论已趋于成熟,
[期刊] 图书情报工作
[作者]
于津凯 王映雪 陈怀楚
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。
[期刊] 统计研究
[作者]
吴琪 ,王持位
建国以来,我国工业计划统计的综合指标始终以工业总产值为主。去年,国务院在一个文件中明确规定,把工业净产值作为主要指标。工业净产值是工业新创造的价值,它在任何范围内没有重复计算,可以综合反映增产和节约两个方面的成果,因而能够比较确切地反映工业生产的规模,适于作为反映宏观经济效益的产出指标,用来研究国家、企业和个人三者之间的分配关系。把工业净产值作为工业综合指标体系中的主要指标,是正确的。
[期刊] 统计与决策
[作者]
曹明霞 党耀国 张蓉 陆建峰
一、引言在系统分析中,为了研究系统的结构和功能,就要建立适当的数学模型去描述系统。而这样做时,首要的工作就是要分析各种因素间的关系,找出系统的主要特征及主要关系,为分析研究提供
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除