- 年份
- 2024(2520)
- 2023(3800)
- 2022(3021)
- 2021(2968)
- 2020(2624)
- 2019(6346)
- 2018(6515)
- 2017(12604)
- 2016(6876)
- 2015(7984)
- 2014(7926)
- 2013(7525)
- 2012(6550)
- 2011(5881)
- 2010(6297)
- 2009(5638)
- 2008(5360)
- 2007(4702)
- 2006(4083)
- 2005(3477)
- 学科
- 济(27741)
- 经济(27723)
- 管理(18342)
- 业(17262)
- 方法(16700)
- 数学(15433)
- 数学方法(14942)
- 企(14869)
- 企业(14869)
- 农(6543)
- 理论(6511)
- 中国(6480)
- 业经(5276)
- 教学(5209)
- 学(4938)
- 财(4512)
- 技术(4438)
- 贸(4249)
- 贸易(4245)
- 易(4133)
- 农业(4117)
- 地方(4107)
- 和(3901)
- 划(3663)
- 制(3623)
- 策(3552)
- 环境(3406)
- 教育(3355)
- 学法(3320)
- 教学法(3320)
- 机构
- 学院(94432)
- 大学(92213)
- 管理(38169)
- 济(35046)
- 经济(34261)
- 理学(33494)
- 理学院(33169)
- 管理学(32093)
- 管理学院(31951)
- 研究(27639)
- 中国(20308)
- 京(19646)
- 科学(17954)
- 业大(15062)
- 财(14308)
- 农(14300)
- 江(13812)
- 所(13670)
- 中心(13170)
- 研究所(12574)
- 北京(12453)
- 范(12211)
- 技术(12133)
- 师范(12081)
- 财经(11658)
- 州(11123)
- 农业(11116)
- 经(10597)
- 经济管理(10154)
- 院(10081)
- 基金
- 项目(65321)
- 科学(51519)
- 研究(46930)
- 基金(46254)
- 家(40510)
- 国家(40213)
- 科学基金(34997)
- 社会(28014)
- 省(27226)
- 社会科(26577)
- 社会科学(26567)
- 自然(24019)
- 教育(23978)
- 基金项目(23794)
- 自然科(23561)
- 自然科学(23559)
- 自然科学基金(23096)
- 划(22743)
- 资助(20553)
- 编号(19936)
- 成果(15258)
- 重点(14925)
- 课题(14303)
- 创(13977)
- 部(13849)
- 发(13523)
- 创新(12951)
- 科研(12484)
- 大学(12377)
- 计划(12250)
共检索到131802条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 林业科学
[作者]
谭晶维 张怀清 刘洋 杨杰 郑东萍
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及模型标注数据耗时费力等问题,研究利用大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。随后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题的共2 280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT种通用领域的中文预训练语言模型以及本文构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为了探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题的数据集对所有模型进行微调。此外,将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观地展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升了1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升了3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现最差的法律法规也达到82.32%。在文献抽取问答任务中,ForestBERT相比BERT提供了更准确、全面的答案。【结论】采用继续预训练的方式来增强通用领域预训练语言模型的林业专业知识,可以有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供了一种新思路。
[期刊] 图书情报工作
[作者]
胡昊天 邓三鸿 王东波 沈思 沈健威
[目的 /意义]对预训练语言模型在情报学与情报工作中的相关研究进行系统性的梳理与分析,为后续预训练模型与情报研究的融合提供借鉴。[方法 /过程]首先,简述预训练模型的基本原理与发展历程,汇总情报研究中应用较为广泛的预训练模型。其次,宏观上分析预训练模型在国内外情报研究中的热点方向,微观上从情报组织、情报检索、情报挖掘等方面调研预训练模型相关研究成果,并细致分析归纳预训练模型的应用方式、改进策略与性能表现。最后,从预训练模型的语料、训练、评价、应用等方面总结当前预训练模型在情报学科中面临的机遇与挑战,展望未来发展。[结果 /结论 ]当前BERT及其改型在情报处理中应用最广、表现最优。结合神经网络与微调的范式被用于各研究场景,尤其是领域信息抽取与文本分类任务。继续预训练、外部知识增强、架构优化等策略可进一步提升性能。如何平衡训练语料的规模与质量、提升模型易用性与安全性、高准度与多维度评价模型真实能力、加速学科知识挖掘工具落地应是未来考虑的关键问题。
[期刊] 图书情报工作
[作者]
施国良 陈宇奇
[目的/意义]政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程]设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论]实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。
[期刊] 情报学报
[作者]
沈思 陈猛 冯暑阳 许乾坤 刘江峰 王飞 王东波
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。
[期刊] 特区经济
[作者]
李维阳 苏静普
生成式预训练模型以其高度个性化的学习体验和基于数据与反馈的动态学习方式重构了教育空间和教学方法,为教育体系带来了颠覆性变革。但随着生成式预训练模型普遍化,尤其是Chat GPT的崛起,一些新的伦理风险也逐渐凸显出来,其中包括技术风险、内容风险、数据风险和算法风险等。这些风险既有生成式预训练模型本身在训练过程中不自觉产生的偏见或误导性言论对人的侵犯,也有人类本身的因素如:开发者算法霸权、个体技术认知缺乏、教师数据素养欠缺等。针对这些伦理风险,可以从加强理论研究和知识普及、研发符合我国教育模式的生成式预训练模型、推动教育形态的结构性变革来进行伦理风险治理,以确保生成式预训练模型技术在教育领域的应用符合教育伦理规范。
[期刊] 清华大学学报(自然科学版)
[作者]
李宜爽 陈智聪 缪诗宇 苏祺 李琳 洪青阳
近年来,预训练模型(pre-trained models, PTMs)被广泛应用于说话人验证(speaker verification, SV)系统,通过在预训练模型下游接入说话人分类网络,并进行微调,可大幅提升系统性能。然而,目前基于预训练模型的SV研究大多在有标签的数据集上进行微调,需要大量目标域带标注数据。该文提出一种基于预训练模型的半监督说话人验证系统,首先,利用少量带标注数据训练一个种子模型;其次,利用该种子模型结合无监督聚类算法为无标注数据生成伪标签;再次,联合真实标注数据和伪标注数据进行模型重训练;最后,通过多轮迭代提升模型性能。在仅有100 h带标签说话人数据的条件下,该文提出的半监督系统在Vox Celeb1-O测试集的等错误率为1.02%,比基线系统降低了86.8%,表明该文所提出的半监督说话人验证系统的有效性。
[期刊] 情报理论与实践
[作者]
王宇琪 周庆山
[目的/意义]互联网开源信息具有海量、多源异构等特点,如何从中及时发现有价值的信息,并对信息加以情报利用一直是情报研究和实践应用的重点领域之一。本文提出一套开源的学术会议领域信息抽取框架,解决信息抽取语义理解和关联融合的问题,并将其应用于情报研究中,为解决情报分析的智能应用提供工具和方法。[方法/过程]采集网络上新闻报道的内容,采用预训练语言模型方法挖掘学术会议事件信息,提出面向特定领域的信息抽取框架,实现会议名称及其举办时间、地点、出席人物、发言人物信息的抽取,并进行实际的情报利用研究案例分析。[结果/结论]相较于单一抽取实体的方法,抽取会议核心元素更具有情报关联性和准确性,可以更好地对开源热点事件发现和跟踪监测、目标人物轨迹动向分析等研究提供方法,为情报分析应用和情报研判奠定基础。
[期刊] 南京农业大学学报
[作者]
薛悦平 胡彦蓉 刘洪久 童莉珍 葛万钊
[目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]试验结果表明,在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。
[期刊] 图书馆论坛
[作者]
徐润华 王东波 刘欢 梁媛 陈康
可以降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究少。文章面向《资治通鉴》语料,基于Siku BERT预训练模型进行自动摘要实验,并对比传统抽取式自动摘要算法和百度智能云摘要分析算法在《资治通鉴》语料上的表现。实验结果表明,基于Siku BERT预训练模型生成的摘要结果在稳定性、覆盖度等方面均优于其他两种方法;通过专家人工打分方式,基于Siku BERT预训练模型生成的摘要结果平均得分最高。实验验证了使用数字人文技术对古文进行自动摘要任务的可行性和利用Siku BERT预训练模型对古文进行信息处理的适用性。
[期刊] 图书馆论坛
[作者]
赵连振 张逸勤 刘江峰 王东波 冯敏萱 李斌
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 图书馆论坛
[作者]
王东波 刘畅 朱子赫 刘江峰 胡昊天 沈思 李斌
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已经在相关领域极大地提升了文本挖掘的精度,数字人文研究的兴起亟需面向古文自动处理领域的预训练模型。本文以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建了面向古文智能处理任务的Siku BERT和Siku Ro BERTa预训练语言模型。实验进一步设计了面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对siku Bert、siku Ro BERTa预训练模型和其他三种基线模型(BERT-base、Ro BERTa、Guwen BERT)进行对比试验。结果显示,Siku BERT和Siku Ro BERTa模型在全部4个下游验证任务中的表现均超越其他基准预训练模型。这表明本文提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。进一步,本文基于验证任务效果最优的Siku Ro BERTa预训练模型构建了“SIKU-BERT典籍智能处理平台”。该平台提供了典籍自动处理、检索和自动翻译等三种在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化的方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
[期刊] 图书馆论坛
[作者]
刘畅 王东波 胡昊天 张逸勤 李斌
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 图书馆论坛
[作者]
胡昊天 张逸勤 邓三鸿 王东波 冯敏萱 刘浏 李斌
四库分类体系具有深远的影响。为解决古籍残本难以辨识所属类别问题,提供面向数字人文领域研究的方法工具,基于面向古文自然语言处理的Siku BERT和Siku Ro BERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、Ro BERTa和Ro BERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,Siku BERT模型取得90.39%的整体分类F值,在天文算法类古籍上达98.83%的分类F值。在类别自动识别任务中,Siku Ro BERTa的预测正确率达95.30%。基于Siku BERT和Siku Ro BERTa预训练语言模型的四库自动分类体系可以有效的将典籍文本划分为所属子部类别,所构建的分类工具为高效自动化典籍分类提供了新的途径。
[期刊] 图书馆论坛
[作者]
耿云冬 张逸勤 刘欢 王东波
在深度学习技术不断发展和预训练语言模型不断改进的背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SIKU-BERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明,SIKU-BERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。
[期刊] 图书馆论坛
[作者]
谢靖 刘江峰 王东波
古代中国医学文献是中华古籍的重要组成部分,含有丰富的中医学知识,是中医理论研究的重要载体和思想源泉。标注古代中医文献的命名实体,能进一步挖掘其蕴藏的中医学知识,推进中医现代化发展。文章基于BERT-base、RoBERTa、SikuBERT、SikuRoBERTa预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。实验结果表明:直接使用古文繁体BERT模型对古代中医文献进行领域命名实体识别,则基于繁体《四库全书》的SikuBERT、SikuRoBERTa预训练模型效果要优于BERT-base、RoBERTa模型;在引入Flat-lattice Transformer(FLAT)结构作为微调模型后,SikuBERT在有标点情况下表现最优,识别效果可以提升4%左右,SikuRoBERTa在无标点情况下表现最优,识别效果可以提高2%~3%。实验验证了FLAT作为微调模型对BERT模型在中医专业领域中古文献命名实体识别工作上的有效性。该微调模型可以有效避免分词错误引起的实体识别传播错误,进而提高中医命名实体的识别效率。
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除