- 年份
- 2024(6917)
- 2023(10118)
- 2022(9022)
- 2021(8696)
- 2020(7215)
- 2019(16963)
- 2018(17029)
- 2017(33173)
- 2016(18058)
- 2015(19993)
- 2014(20023)
- 2013(19943)
- 2012(18245)
- 2011(16346)
- 2010(16303)
- 2009(14481)
- 2008(13928)
- 2007(11975)
- 2006(10371)
- 2005(8985)
- 学科
- 济(68661)
- 经济(68592)
- 管理(50582)
- 业(47539)
- 企(40356)
- 企业(40356)
- 方法(33652)
- 数学(29162)
- 数学方法(28780)
- 财(17441)
- 农(17364)
- 中国(17314)
- 学(16747)
- 业经(15201)
- 制(14553)
- 地方(14186)
- 理论(12395)
- 银(11835)
- 银行(11795)
- 贸(11719)
- 贸易(11711)
- 和(11623)
- 农业(11500)
- 务(11473)
- 财务(11414)
- 财务管理(11387)
- 易(11363)
- 行(11239)
- 融(11202)
- 金融(11200)
- 机构
- 大学(252688)
- 学院(249034)
- 管理(102308)
- 济(94303)
- 经济(92084)
- 理学(89316)
- 理学院(88291)
- 管理学(86671)
- 管理学院(86239)
- 研究(82362)
- 中国(60462)
- 京(54593)
- 科学(53366)
- 财(42402)
- 所(41302)
- 农(39469)
- 业大(38924)
- 研究所(38063)
- 中心(37202)
- 江(34940)
- 财经(34691)
- 北京(34573)
- 范(34228)
- 师范(33898)
- 经(31616)
- 农业(31173)
- 院(30481)
- 州(28920)
- 师范大学(27681)
- 经济学(27343)
- 基金
- 项目(177528)
- 科学(139349)
- 研究(129063)
- 基金(128590)
- 家(112387)
- 国家(111469)
- 科学基金(95757)
- 社会(78996)
- 社会科(74813)
- 社会科学(74792)
- 基金项目(69268)
- 省(69022)
- 自然(64158)
- 自然科(62656)
- 自然科学(62643)
- 自然科学基金(61521)
- 教育(59460)
- 划(58996)
- 资助(53216)
- 编号(53133)
- 成果(42696)
- 重点(39706)
- 部(39067)
- 发(37211)
- 创(36612)
- 课题(36369)
- 科研(34195)
- 创新(34124)
- 教育部(33279)
- 大学(33051)
共检索到352604条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 图书情报工作
[作者]
张倩 刘怀亮
为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。
关键词:
半监督学习 短文本 图结构 自训练
[期刊] 中国科学技术大学学报
[作者]
谭思琪 陈力 王卫东
在过去几年中,半监督学习(SSL)已经应用于许多实际应用。最近,分布式图半监督学习(DGSSL)已显示出良好的性能。当前的DGSSL算法通常存在图构造效率低和掉队效应的问题。本文提出了一种新的编码DGSSL(CDGSSL)来解决这些问题。我们首先提供了一种新的矩阵完成的并行分布式解决方案,用于高效的图构造。然后,我们基于编码理论开发了CDGSSL算法。具体而言,所提出的算法由两部分组成,我们分别基于最大距离可分离(MDS)码进行设计。总的来说,所提出的编码分布式算法是有效的和抗掉队的。此外,我们还为所提出的算法提供了最优参数设计。在阿里云弹性计算服务(ECS)上的实验结果证明了该算法的优越性。
[期刊] 图书情报工作
[作者]
张玉洁 白如江 刘明月 于纯良
[目的/意义]针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程]以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论]在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。
关键词:
SAO 短文本分类 语义联想 BERT
[期刊] 软科学
[作者]
黄静 薛书田 肖进
将半监督学习技术与多分类器集成模型Bagging相结合,构建类别分布不平衡环境下基于Bagging的半监督集成模型(SSEBI),综合利用有、无类别标签的样本来提高模型的性能。该模型主要包括三个阶段:(1)从无类别标签数据集中选择性标记一部分样本并训练若干个基本分类器;(2)使用训练好的基本分类器对测试集样本进行分类;(3)对分类结果进行集成得到最终分类结果。在五个客户信用评估数据集上进行实证分析,结果表明本研究提出的SSEBI模型的有效性。
[期刊] 中国科学技术大学学报
[作者]
张杰 李琳 朱阁
金融机构结合消费者和商业信息来为企业进行信用打分.我国的企业特别是小微企业信用信息少,造成了只有少量企业拥有信用信息,而大量企业没有信用信息的局面.半监督支持向量机可以利用标记数据和未标记数据进行学习,同时可以克服信用数据类别不均衡和样本信息不足等问题.由于半监督支持向量机的参数对算法效果有较大影响,实际参数选取往往根据经验所得.为此提出了一种利用模拟退火(SA)优化基于确定性退火半监督支持向量机(DAS3VM)参数的SAS3VM算法.该算法在少量有标记信用数据的基础上,利用大量无标记信用数据辅助学习,使用模拟退火寻找最优参数.最后在两组企业信用数据集和三组个人信用数据集上进行对比实验,结果表明,半监督学习方法(DAS3VM和SAS3VM)优于监督学习方法,SAS3VM在准确率上比DAS3VM最大提升了13.108%.
[期刊] 软科学
[作者]
黄静 薛书田 肖进
将半监督学习技术与多分类器集成模型Bagging相结合,构建类别分布不平衡环境下基于Bagging的半监督集成模型(SSEBI),综合利用有、无类别标签的样本来提高模型的性能。该模型主要包括三个阶段:(1)从无类别标签数据集中选择性标记一部分样本并训练若干个基本分类器;(2)使用训练好的基本分类器对测试集样本进行分类;(3)对分类结果进行集成得到最终分类结果。在五个客户信用评估数据集上进行实证分析,结果表明本研究提出的SSEBI模型的有效性。
[期刊] 图书情报工作
[作者]
张梦芸 丁敬达
[目的 /意义]信息技术的快速发展使得用户评论、患者症状等短文本数据量迅速增长,如何从短文本中挖掘有价值的信息成为文本分类的研究热点。[方法 /过程]以国内某医院各科室患者的病情症状数据为语料集,针对短症状文本包含语义信息不足的问题,从各科室症状词的重要度与关联度出发,将症状文本中低于设定症状词数量的文本作为语义增强对象,采用Word2Vec与基于概率的TF-IDF算法抽取各科室的若干典型症状关键词,将其补充到语义增强对象中形成新语料集,最后利用机器学习算法对症状文本进行分类。[结果 /结论]基于文章语义增强方法构造的新语料集,相较于原始语料集,在支持向量机(Support Vector Machine,SVM)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)以及随机森林(Random Forest,RF)上的分类效果均有较大幅度提升,准确率分别提高约10%、9%、10%。
[期刊] 图书情报工作
[作者]
张梦芸 丁敬达
[目的/意义]信息技术的快速发展使得用户评论、患者症状等短文本数据量迅速增长,如何从短文本中挖掘有价值的信息成为文本分类的研究热点。[方法/过程]以国内某医院各科室患者的病情症状数据为语料集,针对短症状文本包含语义信息不足的问题,从各科室症状词的重要度与关联度出发,将症状文本中低于设定症状词数量的文本作为语义增强对象,采用Word2Vec与基于概率的TF-IDF算法抽取各科室的若干典型症状关键词,将其补充到语义增强对象中形成新语料集,最后利用机器学习算法对症状文本进行分类。[结果/结论]基于文章语义增强方法构造的新语料集,相较于原始语料集,在支持向量机(Support Vector Machine,SVM)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)以及随机森林(Random Forest,RF)上的分类效果均有较大幅度提升,准确率分别提高约10%、9%、10%。
[期刊] 统计研究
[作者]
林建浩 陈良源 宋登辉
本文以2003年1月至2018年8月中国央行行长所有口头沟通内容为文本基础,生成央行行长沟通这一特定领域的专用词典,进而使用短语数量加权的方法分别构造货币政策沟通指数和经济形势沟通指数。其中,货币政策沟通指数与实际基准利率和存款准备金率的变动具有高度相关性,而经济形势沟通指数可以作为经济基本面的信号器。进一步,本文基于监督学习方法,通过训练子样本词典得到具有倾向的短语及其概率分布,利用文本分类器对新的沟通文本进行自动分类,最终对新样本进行指数计算。子样本的监督学习与全样本信息具有一致的结果,表明本文的央行行长口头沟通测度具有可复制性和可延展性。
关键词:
央行沟通 词典分析 监督学习
[期刊] 情报理论与实践
[作者]
李杰 李欢
[目的/意义]构建在线评论的产品特征提取及情感分类模型,可以为产品设计人员进行产品优化改进提供决策支持。[方法/过程]提出了基于卷积神经网络算法的产品特征提取及情感分类模型。模型采用卷积神经网络进行短文本评论情感分类,以情感分类标签标注相应评论中提取的产品特征词,并利用词向量对产品特征词聚类。通过爬取的笔记本电脑和手机评论对模型进行训练和测试。[结果/结论]结果表明,模型能够实现有效的产品特征提取及高准确率情感分类,是在线评论分析的有效模型。
[期刊] 统计与决策
[作者]
张帆 李林
数据分类是统计学的重要组成部分,为统计与决策提供高质量的数据支撑。半监督学习作为重要的数据分类方法,近年来被广泛研究,文章提出了一种基于非负矩阵分解与调和函数的半监督学习方法(NMF-HF)。首先,对原始数据矩阵进行非负矩阵分解(NMF)从而得到特征矩阵,利用调和函数(HF)的性质对原始数据进行数据分类,最后将该方法(NMF-HF)与经典分类方法进行分类准确率对比,得到的实验结果证明了NMF-HF的高效性。
[期刊] 图书情报工作
[作者]
郭利强
针对网络博客空间中垃圾评论泛滥的问题,给出一种半监督学习式网络垃圾评论检测方案。基于评论内容的统计分析,设计相关度、词组重复率、超链接数目、内容淫秽度、句子长度共5个特征指标,给出网络垃圾评论检测系统的框架,并进行实验验证。实验结果表明,本方法能有效检测出网络博客空间中的垃圾评论,具有较好的应用价值。
[期刊] 工业工程
[作者]
姚池 潘尔顺
针对电商网站中的大量非结构化、无标注的用户评论文本,运用两视图半监督学习方法对其进行分类,识别出涉及产品质量问题的内容,从而挖掘出其中隐含的产品质量缺陷与隐患。综合考虑词汇、情感、领域等多方面特征,构建文本特征视图和非文本特征视图,采用Co-training协同训练算法,依据是否涉及质量问题对评论进行分类。以电热水壶为例,爬取电商网站的评论数据进行实证分析。结果显示,本文方法的分类F1值和AUC值分别为82.18%和86.24%,相比于单视图监督学习分类器具有显著提升。
[期刊] 情报理论与实践
[作者]
高金勇 徐朝军 冯奕竸
为了给教育研究和管理提供可靠的决策支持,对网络信息进行分类处理就成为了一种需要。鉴于TFIDF对短文本分类存在的缺陷,本文采用基于迭代的TFIDF算法对文本向量进行了优化。试验结果表明,基于迭代的TFIDF算法可以有效提高短文本文档分类的准确率。
关键词:
文本分类 网络资源 算法
[期刊] 图书情报工作
[作者]
赵辉 刘怀亮
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。
关键词:
短文本分类 维基百科 词义消歧 特征扩展
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除