- 年份
- 2024(9295)
- 2023(13527)
- 2022(11961)
- 2021(11322)
- 2020(9540)
- 2019(22207)
- 2018(21957)
- 2017(42941)
- 2016(22986)
- 2015(26123)
- 2014(26031)
- 2013(25388)
- 2012(22817)
- 2011(20412)
- 2010(20066)
- 2009(18208)
- 2008(17482)
- 2007(14908)
- 2006(12720)
- 2005(10711)
- 学科
- 济(90379)
- 经济(90248)
- 管理(68009)
- 业(63448)
- 企(53930)
- 企业(53930)
- 方法(46808)
- 数学(41152)
- 数学方法(40481)
- 财(23762)
- 农(23017)
- 中国(21711)
- 学(19936)
- 业经(19353)
- 地方(16814)
- 制(16410)
- 贸(15466)
- 贸易(15458)
- 理论(15434)
- 务(15368)
- 财务(15291)
- 财务管理(15256)
- 农业(15224)
- 易(14978)
- 企业财务(14469)
- 技术(14457)
- 和(14371)
- 环境(13919)
- 划(12623)
- 银(12397)
- 机构
- 大学(323633)
- 学院(320713)
- 管理(131804)
- 济(124235)
- 经济(121542)
- 理学(115971)
- 理学院(114711)
- 管理学(112409)
- 管理学院(111841)
- 研究(100751)
- 中国(73285)
- 京(67298)
- 科学(63972)
- 财(56608)
- 业大(49278)
- 农(49099)
- 所(48885)
- 财经(46561)
- 中心(46467)
- 研究所(44995)
- 江(43921)
- 经(42498)
- 范(41895)
- 北京(41838)
- 师范(41507)
- 农业(38499)
- 院(37331)
- 经济学(37221)
- 州(36145)
- 财经大学(34987)
- 基金
- 项目(230611)
- 科学(181755)
- 基金(168690)
- 研究(166812)
- 家(146727)
- 国家(145548)
- 科学基金(126236)
- 社会(104874)
- 社会科(99308)
- 社会科学(99283)
- 基金项目(89996)
- 省(89246)
- 自然(83856)
- 自然科(81931)
- 自然科学(81911)
- 自然科学基金(80404)
- 教育(77224)
- 划(75473)
- 资助(69922)
- 编号(67810)
- 成果(53591)
- 重点(51045)
- 部(50922)
- 创(47869)
- 发(47494)
- 课题(45736)
- 创新(44635)
- 科研(44600)
- 教育部(43913)
- 大学(43414)
- 期刊
- 济(126915)
- 经济(126915)
- 研究(88714)
- 中国(54322)
- 学报(51235)
- 科学(47215)
- 管理(46699)
- 农(43325)
- 财(42862)
- 大学(39548)
- 学学(37328)
- 教育(33876)
- 农业(30294)
- 技术(28709)
- 融(22412)
- 金融(22412)
- 财经(21987)
- 业经(21295)
- 经济研究(20035)
- 经(18639)
- 问题(16597)
- 图书(16447)
- 科技(15673)
- 理论(15471)
- 技术经济(15406)
- 版(15141)
- 统计(15108)
- 业(14818)
- 实践(14348)
- 践(14348)
共检索到442280条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
余凡 程虹 楼雯
针对目前文本等级关系提取结果与本体层次模型的标准不符的现状,利用《测绘学叙词表》构建初始本体层次模型,利用绝对词频和GF/GL值对相邻词汇的领域相关度筛选,利用余弦算法计算相似度,利用平均值方法计算等级关系筛选阈值。结果表明改进的相似度算法能够提高文本等级关系提取的有效性,提取的等级关系能够应用到本体层次模型的构建中。
关键词:
本体 等级关系提取 叙词表 相似度
[期刊] 图书情报工作
[作者]
余凡 程虹 楼雯
针对目前适用于中文文本非等级关系提取方法偏少以及关联规则筛选方法忽略了集中出现在部分文本集中的领域词汇关系的问题,通过对中文文本的统计分析,尝试定义一套中文非等级关系提取的规则,同时提出一种加入平均值变量的改进的关联规则。实践证明,基于自定义的语法规则提取方法能够有效地从中文文本中提取出主、谓、宾语,进而提取出非等级关系,改进的关联规则方法能够提取出集中出现在部分文本集中的领域词汇非等级关系。
[期刊] 图书情报工作
[作者]
赵登鹏 熊回香 田丰收 李昕然
[目的/意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵;最后,基于打分矩阵和改进的打分规则,对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解,回溯该最优解,获取最优解的比对路径,计算两中文序列的相似度。[结果/结论]实验结果表明,相较于目前全局比对算法的相关研究,本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性,同时,应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。
[期刊] 数据分析与知识发现
[作者]
王子璇 乐小虬 何远标
【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步
[期刊] 图书情报工作
[作者]
王泽贤
对Lucene内部的相似度评分算法进行研究分析,指出其在书目搜索中,未考虑图书的受欢迎度这一因素对搜索结果排序的影响。提出一种改进的算法并予以实现。实验结果证明,改进的算法能将较受读者欢迎的图书排列在前,提升读者的书目搜索体验。
关键词:
Lucene 书目搜索 相似度
[期刊] 数据分析与知识发现
[作者]
白如江 冷伏海 廖君华
【目的】利用文本语义组块特征提升Cosine文本相似度计算性能。【方法】获取NSF资助的关于碳纳米管研究领域的项目数据,进行词干还原、词性标注等预处理;利用条件随机场模型实现文本内容的语义组块标注;在此基础上实现基于语义组块特征的改进Cosine文本相似度计算,并与未标注的数据进行相似度计算比较,分析实验结果。【结果】实验证明基于语义组块特征的改进Cosine相似度计算结果比原始文本Cosine相似度计算结果相似度均有不同程度的提升,在实验数据中最高的相似度提升了26%。【局限】依赖于语义组块标注性能。【
关键词:
文本相似度 语义组块 向量空间模型 本体
[期刊] 数据分析与知识发现
[作者]
詹春霞 王荣波 黄孝喜 谌志群
【目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP算法,通过粒子群算法寻找CFSFDP算法中的最佳局部密度和距离阈值,得到相对较高的局部密度和距离的聚类中心,减少离散点对数据中心选取的影响,并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明,在不同的数据集中,本文算法相对于基本的
关键词:
CFSDFP 聚类中心 粒子优化群算法
[期刊] 图书情报工作
[作者]
于津凯 王映雪 陈怀楚
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。
[期刊] 数据分析与知识发现
[作者]
李昌兵 庞崇鹏 李美平
【目的】解决在海量客户评论信息中抽取产品特征时噪声大的问题。【方法】运用TF-IDF和方差选择的统计方法在众多初步提取出来的特征中进行选择,设置阈值后将各自提取出来的特征取交进行过滤,得到产品特征集合,根据基于矩阵和权重改进的Apriori算法产生频繁项集,设定不同阈值得到最优特征集合,实现对用户评论中产品特征的自动提取。【结果】以手机评论文本为例,从中抽取手机类的产品特征,根据人工标注的183个特征和算法识别出来的特征,查准率P为72.44%,查全率R为77.59%,综合值F为74.93%。【局限】查准
[期刊] 情报理论与实践
[作者]
彭继东 谭宗颖
介绍了专利相似度测量的现状及其局限性;在此基础上提出了基于文本挖掘技术,以专利标题、摘要、权利要求和说明书4个文本元素的加权相似度作为专利相似度的测量方法;最后讨论了该方法的应用价值,并以碳纳米管技术领域为例作了实证研究。
关键词:
专利 文本挖掘 测量方法 应用
[期刊] 数字图书馆论坛
[作者]
郭红梅 袁国华 胡正银
在对概念语义相似度方法调研的基础上,本文提出基于概念向量的文本语义相似度测度方法,借助MetaMap工具抽取文本中的概念术语,将概念术语通过词表层级结构转化为概念向量,通过计算两文本中概念向量的语义相似度来测度两文本的语义相似度。为验证基于概念向量文本语义相似度方法的准确性,选取TREC-05 genomics track数据进行实验,实验结果表明,本文提出的方法较常用的余弦方法更优,与专家评估方法更接近,在测度文本语义相似度上具有一定的可行性和有效性。
关键词:
概念向量 语义相似度 文本相似度
[期刊] 数据分析与知识发现
[作者]
陈二静 姜恩波
【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity’or‘lexical similarity’"并限定文献类型进行检索,最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系,文本相似度计算方法
[期刊] 情报科学
[作者]
周源 刘怀兰 杜朋朋 廖岭
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。
[期刊] 数据分析与知识发现
[作者]
翟东升 蔡文浩 张杰 李振飞
【目的】为满足中文商标侵权判定过程中检测语义相似度的需求,提出一种改进的中文商标语义相似度计算方法。【方法】引入新参数改进传统的基于How Net的中文商标语义相似度计算方法,并收集大量商标数据作为相似度检测的支持数据以弥补How Net词库的局限,分别使用传统方法和改进后的方法对样本数据进行相似度检测,并对比准确率验证改进后方法的有效性。【结果】实验结果显示,改进后的方法比传统方法准确率更高、有更好的区分度。【局限】相似度检测支持数据——商标数据库中的数据量可以进一步丰富。【结论】改进后的中文商标语义相
[期刊] 图书情报工作
[作者]
张均胜 石崇德 徐红姣 高影繁 何彦青
文本主观题自动阅卷的关键是提高考生答案文本和试题标准答案文本之间相似度计算结果的准确率。参考文本试题人工阅卷方法,提出一种结合人工制定文本相似标准、词语集合及词语次序和同义词的短文本相似度计算方法,设计并实现相应文本主观题阅卷系统。建立试题人工评分标准库,并在387道银行培训领域真实考题数据集上进行自动阅卷与人工阅卷结果对比实验。结果显示,文本试题自动阅卷结果与人工阅卷结果相比,完全相同的达到58%,准确率达到80%左右。
关键词:
短文本 相似度 主观题 自动阅卷
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除