标题
  • 标题
  • 作者
  • 关键词
登 录
当前IP:忘记密码?
年份
2024(6985)
2023(10021)
2022(8617)
2021(8154)
2020(7093)
2019(16361)
2018(16330)
2017(32137)
2016(16860)
2015(19315)
2014(19065)
2013(18545)
2012(16665)
2011(14625)
2010(14693)
2009(13296)
2008(12428)
2007(10428)
2006(8660)
2005(7109)
作者
(45218)
(37608)
(37598)
(35696)
(24236)
(18058)
(17123)
(14782)
(14345)
(13369)
(13081)
(12543)
(11881)
(11807)
(11658)
(11398)
(11264)
(10915)
(10880)
(10877)
(9291)
(9123)
(9079)
(8630)
(8548)
(8443)
(8209)
(8106)
(7544)
(7345)
学科
(71898)
经济(71831)
管理(51688)
(49546)
方法(43207)
(41935)
企业(41935)
数学(39626)
数学方法(38991)
(18522)
(16660)
中国(16380)
业经(14039)
(13099)
(12680)
财务(12621)
财务管理(12583)
(12196)
贸易(12189)
企业财务(11985)
理论(11972)
(11864)
(11860)
银行(11857)
(11513)
金融(11512)
地方(11500)
技术(11317)
(11261)
(11254)
机构
学院(232563)
大学(231893)
管理(98419)
(95339)
经济(93560)
理学(86768)
理学院(85992)
管理学(84263)
管理学院(83850)
研究(65888)
中国(52001)
(46319)
(43389)
科学(39042)
财经(36093)
中心(33370)
业大(33303)
(33160)
(32411)
(31503)
经济学(30191)
(30153)
北京(28162)
研究所(27593)
经济学院(27583)
财经大学(27486)
(27475)
师范(27161)
经济管理(25995)
商学(25984)
基金
项目(167417)
科学(134728)
基金(125080)
研究(121239)
(107969)
国家(107138)
科学基金(95138)
社会(78256)
社会科(74508)
社会科学(74491)
基金项目(65864)
(64965)
自然(63262)
自然科(61947)
自然科学(61937)
自然科学基金(60836)
教育(58815)
(54958)
资助(52791)
编号(48494)
(38051)
重点(37464)
成果(37022)
(35799)
(34252)
教育部(33726)
创新(33355)
国家社会(32937)
课题(32769)
科研(32649)
期刊
(88531)
经济(88531)
研究(59371)
中国(39452)
管理(35952)
(34225)
学报(31906)
科学(30742)
大学(25976)
(25965)
技术(24835)
学学(24606)
教育(23788)
(21024)
金融(21024)
农业(17969)
财经(17798)
经济研究(15102)
(15095)
业经(14791)
统计(14184)
(12999)
技术经济(12061)
决策(11709)
问题(11672)
理论(10902)
商业(10807)
(10190)
财会(10142)
科技(10007)
共检索到315406条记录
发布时间倒序
  • 发布时间倒序
  • 相关度优先
文献计量分析
  • 结果分析(前20)
  • 结果分析(前50)
  • 结果分析(前100)
  • 结果分析(前200)
  • 结果分析(前500)
[期刊] 清华大学学报(自然科学版)  [作者] 李宜爽   陈智聪   缪诗宇   苏祺   李琳   洪青阳  
近年来,预训练模型(pre-trained models, PTMs)被广泛应用于说话人验证(speaker verification, SV)系统,通过在预训练模型下游接入说话人分类网络,并进行微调,可大幅提升系统性能。然而,目前基于预训练模型的SV研究大多在有标签的数据集上进行微调,需要大量目标域带标注数据。该文提出一种基于预训练模型的半监督说话人验证系统,首先,利用少量带标注数据训练一个种子模型;其次,利用该种子模型结合无监督聚类算法为无标注数据生成伪标签;再次,联合真实标注数据和伪标注数据进行模型重训练;最后,通过多轮迭代提升模型性能。在仅有100 h带标签说话人数据的条件下,该文提出的半监督系统在Vox Celeb1-O测试集的等错误率为1.02%,比基线系统降低了86.8%,表明该文所提出的半监督说话人验证系统的有效性。
[期刊] 统计研究  [作者] 黎春  周振宇  
随着我国金融市场的蓬勃发展,信用评价中的拒绝推断问题越来越受到重视。针对信用评分模型中存在的有类别标签的样本占比低,并且样本中的类别分布不平衡等问题,本文在半监督学习技术与集成学习理论的基础上,提出了一种新的算法——BCT算法。该算法通过使用动态Bagging生成多个子分类器,引入分类阈值参数来解决样本类别分布不平衡问题,以及设定早停止条件来避免算法迭代过程中存在的过拟合风险,以此对传统半监督协同训练法进行改进。通过在5个真实数据集上的实证分析发现,在不同数据集与不同拒绝比例下,BCT算法的性能均优于其他6种有监督学习和半监督学习算法的信用评分模型,显示了BCT算法具有良好的模型泛化性能和更高的模型评价能力。
[期刊] 华中师范大学学报(自然科学版)  [作者] 王宇  李延晖  
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.
[期刊] 统计与决策  [作者] 孙洁   景志敏   周欢  
半监督自训练方法属于半监督自标记方法的一种,它能同时利用有标记样本和无标记样本来训练分类器。然而,对半监督自训练方法而言,误标记是一个不容忽视的问题。为此,文章提出了一种基于密度峰值聚类和相对距离的半监督自训练方法(STDPRD)。在迭代的自训练过程中,STDPRD首先用密度峰值聚类来选取具有高置信度的无标记样本,再标记他们;其次,STDPRD用相对距离来过滤掉在迭代过程中被误标记的样本;然后,STDPRD把在迭代过程中被正确标记的样本加入有标记集中;最后,STDPRD用被扩充的有标记集来训练给定的分类器,训练完成后,输出被训练的分类器。仿真实验结果表明,在真实数据集上,STDPRD的表现优于4种流行的半监督自训练方法。
[期刊] 林业科学  [作者] 谭晶维   张怀清   刘洋   杨杰   郑东萍  
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及模型标注数据耗时费力等问题,研究利用大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。随后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题的共2 280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT种通用领域的中文预训练语言模型以及本文构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为了探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题的数据集对所有模型进行微调。此外,将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观地展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升了1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升了3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现最差的法律法规也达到82.32%。在文献抽取问答任务中,ForestBERT相比BERT提供了更准确、全面的答案。【结论】采用继续预训练的方式来增强通用领域预训练语言模型的林业专业知识,可以有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供了一种新思路。
[期刊] 情报学报  [作者] 沈思   陈猛   冯暑阳   许乾坤   刘江峰   王飞   王东波  
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。
[期刊] 图书情报工作  [作者] 胡昊天   邓三鸿   王东波   沈思   沈健威  
[目的 /意义]对预训练语言模型在情报学与情报工作中的相关研究进行系统性的梳理与分析,为后续预训练模型与情报研究的融合提供借鉴。[方法 /过程]首先,简述预训练模型的基本原理与发展历程,汇总情报研究中应用较为广泛的预训练模型。其次,宏观上分析预训练模型在国内外情报研究中的热点方向,微观上从情报组织、情报检索、情报挖掘等方面调研预训练模型相关研究成果,并细致分析归纳预训练模型的应用方式、改进策略与性能表现。最后,从预训练模型的语料、训练、评价、应用等方面总结当前预训练模型在情报学科中面临的机遇与挑战,展望未来发展。[结果 /结论 ]当前BERT及其改型在情报处理中应用最广、表现最优。结合神经网络与微调的范式被用于各研究场景,尤其是领域信息抽取与文本分类任务。继续预训练、外部知识增强、架构优化等策略可进一步提升性能。如何平衡训练语料的规模与质量、提升模型易用性与安全性、高准度与多维度评价模型真实能力、加速学科知识挖掘工具落地应是未来考虑的关键问题。
[期刊] 南京农业大学学报  [作者] 薛悦平   胡彦蓉   刘洪久   童莉珍   葛万钊  
[目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]试验结果表明,在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。
[期刊] 实验技术与管理  [作者] 芮贤义  陈小平  俞一彪  
该文设计了基于高斯混合模型的说话人识别系统实验,通过录制小型语音库、提取表征说话人个性的特征参数、训练说话人模型和似然度判决,实现文本无关的说话人识别。实验以小组形式协作完成,并鼓励学生展开进阶研究,帮助学生提升团队协作精神和创新精神,以及解决复杂工程问题的能力。所建立的全过程多维度立体化的实验考核体系,着眼于对学生的方案设计、实验操作、报告撰写、演示答辩等全过程评价,有助于激发学生的创造力和学习热情。
[期刊] 软科学  [作者] 黄静  薛书田  肖进  
将半监督学习技术与多分类器集成模型Bagging相结合,构建类别分布不平衡环境下基于Bagging的半监督集成模型(SSEBI),综合利用有、无类别标签的样本来提高模型的性能。该模型主要包括三个阶段:(1)从无类别标签数据集中选择性标记一部分样本并训练若干个基本分类器;(2)使用训练好的基本分类器对测试集样本进行分类;(3)对分类结果进行集成得到最终分类结果。在五个客户信用评估数据集上进行实证分析,结果表明本研究提出的SSEBI模型的有效性。
[期刊] 软科学  [作者] 黄静  薛书田  肖进  
将半监督学习技术与多分类器集成模型Bagging相结合,构建类别分布不平衡环境下基于Bagging的半监督集成模型(SSEBI),综合利用有、无类别标签的样本来提高模型的性能。该模型主要包括三个阶段:(1)从无类别标签数据集中选择性标记一部分样本并训练若干个基本分类器;(2)使用训练好的基本分类器对测试集样本进行分类;(3)对分类结果进行集成得到最终分类结果。在五个客户信用评估数据集上进行实证分析,结果表明本研究提出的SSEBI模型的有效性。
[期刊] 图书馆论坛  [作者] 徐润华  王东波  刘欢  梁媛  陈康  
可以降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究少。文章面向《资治通鉴》语料,基于Siku BERT预训练模型进行自动摘要实验,并对比传统抽取式自动摘要算法和百度智能云摘要分析算法在《资治通鉴》语料上的表现。实验结果表明,基于Siku BERT预训练模型生成的摘要结果在稳定性、覆盖度等方面均优于其他两种方法;通过专家人工打分方式,基于Siku BERT预训练模型生成的摘要结果平均得分最高。实验验证了使用数字人文技术对古文进行自动摘要任务的可行性和利用Siku BERT预训练模型对古文进行信息处理的适用性。
[期刊] 图书馆论坛  [作者] 赵连振  张逸勤  刘江峰  王东波  冯敏萱  李斌  
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 特区经济  [作者] 李维阳   苏静普  
生成式预训练模型以其高度个性化的学习体验和基于数据与反馈的动态学习方式重构了教育空间和教学方法,为教育体系带来了颠覆性变革。但随着生成式预训练模型普遍化,尤其是Chat GPT的崛起,一些新的伦理风险也逐渐凸显出来,其中包括技术风险、内容风险、数据风险和算法风险等。这些风险既有生成式预训练模型本身在训练过程中不自觉产生的偏见或误导性言论对人的侵犯,也有人类本身的因素如:开发者算法霸权、个体技术认知缺乏、教师数据素养欠缺等。针对这些伦理风险,可以从加强理论研究和知识普及、研发符合我国教育模式的生成式预训练模型、推动教育形态的结构性变革来进行伦理风险治理,以确保生成式预训练模型技术在教育领域的应用符合教育伦理规范。
[期刊] 图书馆论坛  [作者] 王东波  刘畅  朱子赫  刘江峰  胡昊天  沈思  李斌  
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已经在相关领域极大地提升了文本挖掘的精度,数字人文研究的兴起亟需面向古文自动处理领域的预训练模型。本文以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建了面向古文智能处理任务的Siku BERT和Siku Ro BERTa预训练语言模型。实验进一步设计了面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对siku Bert、siku Ro BERTa预训练模型和其他三种基线模型(BERT-base、Ro BERTa、Guwen BERT)进行对比试验。结果显示,Siku BERT和Siku Ro BERTa模型在全部4个下游验证任务中的表现均超越其他基准预训练模型。这表明本文提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。进一步,本文基于验证任务效果最优的Siku Ro BERTa预训练模型构建了“SIKU-BERT典籍智能处理平台”。该平台提供了典籍自动处理、检索和自动翻译等三种在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化的方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
文献操作() 导出元数据 文献计量分析
导出文件格式:WXtxt
作者:
删除