- 年份
- 2024(4533)
- 2023(6668)
- 2022(5804)
- 2021(5687)
- 2020(4826)
- 2019(11220)
- 2018(11279)
- 2017(22365)
- 2016(12252)
- 2015(13828)
- 2014(13794)
- 2013(13163)
- 2012(12026)
- 2011(10799)
- 2010(11466)
- 2009(10339)
- 2008(9999)
- 2007(8925)
- 2006(8017)
- 2005(7106)
- 学科
- 济(47221)
- 经济(47180)
- 管理(35309)
- 业(33131)
- 企(27047)
- 企业(27047)
- 方法(23240)
- 数学(21245)
- 数学方法(20705)
- 农(14010)
- 中国(13170)
- 财(12051)
- 策(10061)
- 业经(9585)
- 贸(9568)
- 贸易(9561)
- 易(9350)
- 理论(9002)
- 地方(8974)
- 制(8861)
- 农业(8790)
- 学(7700)
- 银(7484)
- 银行(7480)
- 技术(7333)
- 行(7166)
- 及其(6740)
- 融(6658)
- 金融(6658)
- 环境(6656)
- 机构
- 学院(165894)
- 大学(162179)
- 济(68206)
- 经济(66689)
- 管理(66105)
- 理学(56663)
- 理学院(56103)
- 管理学(54772)
- 管理学院(54466)
- 研究(53714)
- 中国(41741)
- 京(33926)
- 财(32133)
- 科学(31856)
- 所(26543)
- 江(26019)
- 中心(25290)
- 农(24536)
- 财经(24414)
- 研究所(23868)
- 业大(22770)
- 经(22150)
- 北京(21516)
- 范(21504)
- 师范(21334)
- 州(20466)
- 经济学(20081)
- 院(19671)
- 技术(19314)
- 农业(18943)
- 基金
- 项目(108348)
- 科学(86103)
- 研究(81798)
- 基金(77531)
- 家(66561)
- 国家(66017)
- 科学基金(57482)
- 社会(49848)
- 社会科(47363)
- 社会科学(47351)
- 省(43554)
- 教育(39799)
- 基金项目(39664)
- 自然(37613)
- 自然科(36819)
- 自然科学(36813)
- 划(36606)
- 自然科学基金(36136)
- 编号(34847)
- 资助(33698)
- 成果(28490)
- 课题(24706)
- 重点(24438)
- 部(24100)
- 发(23612)
- 创(22917)
- 创新(21249)
- 项目编号(21066)
- 教育部(20989)
- 大学(20498)
共检索到252228条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报学报
[作者]
沈思 陈猛 冯暑阳 许乾坤 刘江峰 王飞 王东波
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。
[期刊] 图书馆论坛
[作者]
徐润华 王东波 刘欢 梁媛 陈康
可以降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究少。文章面向《资治通鉴》语料,基于Siku BERT预训练模型进行自动摘要实验,并对比传统抽取式自动摘要算法和百度智能云摘要分析算法在《资治通鉴》语料上的表现。实验结果表明,基于Siku BERT预训练模型生成的摘要结果在稳定性、覆盖度等方面均优于其他两种方法;通过专家人工打分方式,基于Siku BERT预训练模型生成的摘要结果平均得分最高。实验验证了使用数字人文技术对古文进行自动摘要任务的可行性和利用Siku BERT预训练模型对古文进行信息处理的适用性。
[期刊] 图书馆论坛
[作者]
赵连振 张逸勤 刘江峰 王东波 冯敏萱 李斌
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 图书馆论坛
[作者]
王东波 刘畅 朱子赫 刘江峰 胡昊天 沈思 李斌
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已经在相关领域极大地提升了文本挖掘的精度,数字人文研究的兴起亟需面向古文自动处理领域的预训练模型。本文以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建了面向古文智能处理任务的Siku BERT和Siku Ro BERTa预训练语言模型。实验进一步设计了面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对siku Bert、siku Ro BERTa预训练模型和其他三种基线模型(BERT-base、Ro BERTa、Guwen BERT)进行对比试验。结果显示,Siku BERT和Siku Ro BERTa模型在全部4个下游验证任务中的表现均超越其他基准预训练模型。这表明本文提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。进一步,本文基于验证任务效果最优的Siku Ro BERTa预训练模型构建了“SIKU-BERT典籍智能处理平台”。该平台提供了典籍自动处理、检索和自动翻译等三种在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化的方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
[期刊] 图书馆论坛
[作者]
刘畅 王东波 胡昊天 张逸勤 李斌
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 图书馆论坛
[作者]
胡昊天 张逸勤 邓三鸿 王东波 冯敏萱 刘浏 李斌
四库分类体系具有深远的影响。为解决古籍残本难以辨识所属类别问题,提供面向数字人文领域研究的方法工具,基于面向古文自然语言处理的Siku BERT和Siku Ro BERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、Ro BERTa和Ro BERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,Siku BERT模型取得90.39%的整体分类F值,在天文算法类古籍上达98.83%的分类F值。在类别自动识别任务中,Siku Ro BERTa的预测正确率达95.30%。基于Siku BERT和Siku Ro BERTa预训练语言模型的四库自动分类体系可以有效的将典籍文本划分为所属子部类别,所构建的分类工具为高效自动化典籍分类提供了新的途径。
[期刊] 图书馆论坛
[作者]
耿云冬 张逸勤 刘欢 王东波
在深度学习技术不断发展和预训练语言模型不断改进的背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SIKU-BERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明,SIKU-BERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。
[期刊] 清华大学学报(自然科学版)
[作者]
苗旭鹏 张敏旭 邵蓥侠 崔斌
传统的分布式深度学习训练系统大多基于参数服务器和全局规约通信框架,缺陷日益显著:参数量大,基于全局规约的去中心化通信架构由于无法存储全量模型而无法使用;通信量大,基于参数服务器的中心化通信架构面临着严重的通信瓶颈。为了解决以上问题,该文提出了面向大规模深度学习推荐模型的混合通信训练框架PS-Hybrid,分离了嵌入层参数和其他参数的通信逻辑,实现了PS-Hybrid原型系统。实验结果证明了所提出的混合通信方案能够比纯参数服务器方案取得更好的性能,在16个计算节点下比TensorFlow-PS加速48%。
[期刊] 图书情报工作
[作者]
施国良 陈宇奇
[目的/意义]政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程]设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论]实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。
[期刊] 全球教育展望
[作者]
赵健
本文简要介绍了国际教学设计领域影响较大的四要素教学设计模型,阐述了该模型面向复杂认知技能的教学设计思想,特别强调了有别于加涅的学习结果分类的两类构成性技能及其获得原理的理论特征。进一步剖析了其中学习任务、支持性信息、JIT 信息与分任务设计四大要素,并概括了设计的序列步骤。本文最后在理论与实践价值及其应用有效性方面对4C/ID 模型进行了评析。
关键词:
教学设计 模型 4C/ID 模型
[期刊] 林业科学
[作者]
谭晶维 张怀清 刘洋 杨杰 郑东萍
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及模型标注数据耗时费力等问题,研究利用大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。随后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题的共2 280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT种通用领域的中文预训练语言模型以及本文构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为了探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题的数据集对所有模型进行微调。此外,将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观地展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升了1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升了3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现最差的法律法规也达到82.32%。在文献抽取问答任务中,ForestBERT相比BERT提供了更准确、全面的答案。【结论】采用继续预训练的方式来增强通用领域预训练语言模型的林业专业知识,可以有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供了一种新思路。
[期刊] 图书情报工作
[作者]
胡昊天 邓三鸿 王东波 沈思 沈健威
[目的 /意义]对预训练语言模型在情报学与情报工作中的相关研究进行系统性的梳理与分析,为后续预训练模型与情报研究的融合提供借鉴。[方法 /过程]首先,简述预训练模型的基本原理与发展历程,汇总情报研究中应用较为广泛的预训练模型。其次,宏观上分析预训练模型在国内外情报研究中的热点方向,微观上从情报组织、情报检索、情报挖掘等方面调研预训练模型相关研究成果,并细致分析归纳预训练模型的应用方式、改进策略与性能表现。最后,从预训练模型的语料、训练、评价、应用等方面总结当前预训练模型在情报学科中面临的机遇与挑战,展望未来发展。[结果 /结论 ]当前BERT及其改型在情报处理中应用最广、表现最优。结合神经网络与微调的范式被用于各研究场景,尤其是领域信息抽取与文本分类任务。继续预训练、外部知识增强、架构优化等策略可进一步提升性能。如何平衡训练语料的规模与质量、提升模型易用性与安全性、高准度与多维度评价模型真实能力、加速学科知识挖掘工具落地应是未来考虑的关键问题。
[期刊] 中国职业技术教育
[作者]
王雯 韩锡斌
利用在线教学模式开展大规模远程技能训练是当前职业教育及社会培训领域解决高技能人才短缺、实现"保就业、稳就业"的重要举措,也是新冠肺炎疫情期间职业教育实现"停课不停学、停课不停教"的应急之举,具有重要研究价值。基于105份技能在线教学的实践案例分析,针对不同类型技能特点,系统性地提出了8种面向远程技能训练的在线教学模式。研究发现,实施在线教学可以较好地实现智力技能与表达技能的训练目标,但限制了部分动作技能及感觉与知觉技能的有效习得。网络基础设施建设与虚拟仿真实验实训资源开发是在线开展技能训练的有效保障。
[期刊] 特区经济
[作者]
李维阳 苏静普
生成式预训练模型以其高度个性化的学习体验和基于数据与反馈的动态学习方式重构了教育空间和教学方法,为教育体系带来了颠覆性变革。但随着生成式预训练模型普遍化,尤其是Chat GPT的崛起,一些新的伦理风险也逐渐凸显出来,其中包括技术风险、内容风险、数据风险和算法风险等。这些风险既有生成式预训练模型本身在训练过程中不自觉产生的偏见或误导性言论对人的侵犯,也有人类本身的因素如:开发者算法霸权、个体技术认知缺乏、教师数据素养欠缺等。针对这些伦理风险,可以从加强理论研究和知识普及、研发符合我国教育模式的生成式预训练模型、推动教育形态的结构性变革来进行伦理风险治理,以确保生成式预训练模型技术在教育领域的应用符合教育伦理规范。
[期刊] 清华大学学报(自然科学版)
[作者]
李宜爽 陈智聪 缪诗宇 苏祺 李琳 洪青阳
近年来,预训练模型(pre-trained models, PTMs)被广泛应用于说话人验证(speaker verification, SV)系统,通过在预训练模型下游接入说话人分类网络,并进行微调,可大幅提升系统性能。然而,目前基于预训练模型的SV研究大多在有标签的数据集上进行微调,需要大量目标域带标注数据。该文提出一种基于预训练模型的半监督说话人验证系统,首先,利用少量带标注数据训练一个种子模型;其次,利用该种子模型结合无监督聚类算法为无标注数据生成伪标签;再次,联合真实标注数据和伪标注数据进行模型重训练;最后,通过多轮迭代提升模型性能。在仅有100 h带标签说话人数据的条件下,该文提出的半监督系统在Vox Celeb1-O测试集的等错误率为1.02%,比基线系统降低了86.8%,表明该文所提出的半监督说话人验证系统的有效性。
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除