- 年份
- 2024(11767)
- 2023(16912)
- 2022(14058)
- 2021(12987)
- 2020(10799)
- 2019(24901)
- 2018(24714)
- 2017(47387)
- 2016(25601)
- 2015(28968)
- 2014(28689)
- 2013(28130)
- 2012(25599)
- 2011(22751)
- 2010(23294)
- 2009(21305)
- 2008(19665)
- 2007(17060)
- 2006(14903)
- 2005(13018)
- 学科
- 济(100541)
- 经济(100438)
- 管理(71220)
- 业(68326)
- 企(57465)
- 企业(57465)
- 方法(46440)
- 数学(40806)
- 数学方法(40065)
- 中国(31200)
- 融(27721)
- 金融(27718)
- 农(26512)
- 银(26372)
- 银行(26332)
- 业经(25849)
- 财(25435)
- 行(25353)
- 地方(22749)
- 学(21779)
- 制(20048)
- 理论(18759)
- 农业(18172)
- 贸(17051)
- 贸易(17033)
- 务(16796)
- 财务(16719)
- 财务管理(16690)
- 易(16522)
- 企业财务(15816)
- 机构
- 大学(350489)
- 学院(350336)
- 管理(138663)
- 济(133594)
- 经济(130419)
- 理学(120326)
- 理学院(118959)
- 管理学(116423)
- 管理学院(115807)
- 研究(114449)
- 中国(91267)
- 京(74778)
- 科学(73010)
- 财(61633)
- 所(56671)
- 农(55359)
- 中心(54516)
- 业大(52642)
- 研究所(52030)
- 江(50694)
- 财经(49572)
- 北京(47257)
- 范(47235)
- 师范(46782)
- 经(45023)
- 农业(43273)
- 州(42329)
- 院(42310)
- 经济学(39969)
- 技术(37991)
- 基金
- 项目(245875)
- 科学(193032)
- 研究(179413)
- 基金(177080)
- 家(154482)
- 国家(153185)
- 科学基金(132066)
- 社会(110832)
- 社会科(105094)
- 社会科学(105063)
- 省(97189)
- 基金项目(94112)
- 自然(87099)
- 自然科(85087)
- 自然科学(85071)
- 自然科学基金(83477)
- 教育(82815)
- 划(81816)
- 编号(74247)
- 资助(73181)
- 成果(59295)
- 重点(55313)
- 部(52863)
- 发(52471)
- 创(51349)
- 课题(51046)
- 创新(47819)
- 科研(47315)
- 大学(45782)
- 项目编号(45728)
- 期刊
- 济(140640)
- 经济(140640)
- 研究(100783)
- 中国(68146)
- 学报(55768)
- 科学(50889)
- 管理(49995)
- 农(49367)
- 财(46171)
- 教育(42490)
- 大学(42311)
- 融(40433)
- 金融(40433)
- 学学(39358)
- 农业(33741)
- 技术(32338)
- 业经(23498)
- 财经(22984)
- 经济研究(22474)
- 图书(21349)
- 经(19562)
- 问题(18038)
- 业(18001)
- 理论(17156)
- 科技(16997)
- 资源(16535)
- 技术经济(16444)
- 实践(15890)
- 践(15890)
- 版(15882)
共检索到511994条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 图书馆论坛
[作者]
刘畅 王东波 胡昊天 张逸勤 李斌
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 图书馆论坛
[作者]
赵连振 张逸勤 刘江峰 王东波 冯敏萱 李斌
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 图书馆论坛
[作者]
徐润华 王东波 刘欢 梁媛 陈康
可以降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究少。文章面向《资治通鉴》语料,基于Siku BERT预训练模型进行自动摘要实验,并对比传统抽取式自动摘要算法和百度智能云摘要分析算法在《资治通鉴》语料上的表现。实验结果表明,基于Siku BERT预训练模型生成的摘要结果在稳定性、覆盖度等方面均优于其他两种方法;通过专家人工打分方式,基于Siku BERT预训练模型生成的摘要结果平均得分最高。实验验证了使用数字人文技术对古文进行自动摘要任务的可行性和利用Siku BERT预训练模型对古文进行信息处理的适用性。
[期刊] 图书馆论坛
[作者]
耿云冬 张逸勤 刘欢 王东波
在深度学习技术不断发展和预训练语言模型不断改进的背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SIKU-BERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明,SIKU-BERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。
[期刊] 图书馆论坛
[作者]
王东波 刘畅 朱子赫 刘江峰 胡昊天 沈思 李斌
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已经在相关领域极大地提升了文本挖掘的精度,数字人文研究的兴起亟需面向古文自动处理领域的预训练模型。本文以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建了面向古文智能处理任务的Siku BERT和Siku Ro BERTa预训练语言模型。实验进一步设计了面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对siku Bert、siku Ro BERTa预训练模型和其他三种基线模型(BERT-base、Ro BERTa、Guwen BERT)进行对比试验。结果显示,Siku BERT和Siku Ro BERTa模型在全部4个下游验证任务中的表现均超越其他基准预训练模型。这表明本文提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。进一步,本文基于验证任务效果最优的Siku Ro BERTa预训练模型构建了“SIKU-BERT典籍智能处理平台”。该平台提供了典籍自动处理、检索和自动翻译等三种在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化的方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
[期刊] 图书馆论坛
[作者]
胡昊天 张逸勤 邓三鸿 王东波 冯敏萱 刘浏 李斌
四库分类体系具有深远的影响。为解决古籍残本难以辨识所属类别问题,提供面向数字人文领域研究的方法工具,基于面向古文自然语言处理的Siku BERT和Siku Ro BERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、Ro BERTa和Ro BERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,Siku BERT模型取得90.39%的整体分类F值,在天文算法类古籍上达98.83%的分类F值。在类别自动识别任务中,Siku Ro BERTa的预测正确率达95.30%。基于Siku BERT和Siku Ro BERTa预训练语言模型的四库自动分类体系可以有效的将典籍文本划分为所属子部类别,所构建的分类工具为高效自动化典籍分类提供了新的途径。
[期刊] 情报学报
[作者]
沈思 陈猛 冯暑阳 许乾坤 刘江峰 王飞 王东波
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。
[期刊] 图书馆论坛
[作者]
谢靖 刘江峰 王东波
古代中国医学文献是中华古籍的重要组成部分,含有丰富的中医学知识,是中医理论研究的重要载体和思想源泉。标注古代中医文献的命名实体,能进一步挖掘其蕴藏的中医学知识,推进中医现代化发展。文章基于BERT-base、RoBERTa、SikuBERT、SikuRoBERTa预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。实验结果表明:直接使用古文繁体BERT模型对古代中医文献进行领域命名实体识别,则基于繁体《四库全书》的SikuBERT、SikuRoBERTa预训练模型效果要优于BERT-base、RoBERTa模型;在引入Flat-lattice Transformer(FLAT)结构作为微调模型后,SikuBERT在有标点情况下表现最优,识别效果可以提升4%左右,SikuRoBERTa在无标点情况下表现最优,识别效果可以提高2%~3%。实验验证了FLAT作为微调模型对BERT模型在中医专业领域中古文献命名实体识别工作上的有效性。该微调模型可以有效避免分词错误引起的实体识别传播错误,进而提高中医命名实体的识别效率。
[期刊] 大学图书馆学报
[作者]
钱智勇 陈涛 张志美 徐宇红 何书
典籍图像是馆藏重要资源,图像数字化和内容揭示是数字人文基础建设,可实现“以图证史”“图像叙事”、多媒介传播等应用价值。文章依据图像元数据、资源描述框架(RDF)和国际图像互操作框架(IIIF)等标准规范,研究典籍图像深度揭示与利用的模型架构与实现方法。该模型由图像数字化、内容深度标注和数字人文应用三个相互关联的模块组成。从图像场景、实体对象和语义关联三个层次,揭示图像特征、典籍注释及背景知识,辅助数字人文研究。例证选用经典辞书《尔雅》插图版《尔雅音图》进行数字化,构建《尔雅》多语语义词表并与实体进行关联,深度揭示《尔雅》词汇的古今释义、音韵、分类、典籍注疏、例句典故等知识内容,探究《尔雅》图像的数字人文应用场景。
[期刊] 数据分析与知识发现
[作者]
张越 王东波 朱丹浩
【目的】在食品安全领域中,建立相关数据库对食品安全的监管和控制都会有很大的帮助,自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法,应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点,对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验,得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出,特征选择时并不是特征越多分词效果越好,会出现特征干扰的情况,在二三字词占46.62%的食品安全突发事件语料中,
[期刊] 图书馆
[作者]
李娜 包平
在数字人文背景下,以馆藏方志古籍为语料库,以摘抄自地方志的农业专题资料《方志物产》之山西分卷为例,在全文人工标注的基础上,构建基于条件随机场的古汉语地名自动识别模型,通过交叉验证方法测试模型的识别性能,用精确率P、召回率R和调和平均数F为测评指标,最佳的测试效果分别为98.16%、91.55%、94.57%。结果显示,条件随机场模型在基于人工标注的方志古籍语料上能够取得较好的识别效果,为深化图书馆馆藏古籍的整理利用提供借鉴。
关键词:
条件随机场 方志古籍 地名 馆藏资源
[期刊] 情报理论与实践
[作者]
胡潜 吴茜 陈漳尧 朱清文
[目的/意义] 围绕图书功用分类问题,提出开展图书功用自动化分类研究,并融合预训练和深度学习方法进行实现方案设计,为图书功用属性揭示和信息组织提供参考。[方法/过程] 基于功用视角进行图书分类体系调研与数据验证,构建图书功用分类体系框架。在此基础上,融合BERT预训练模型和BiLSTM模型构建图书功用分类模型,并基于大规模数据集进行实验验证。[结果/结论] 实验结果显示,模型的准确率达到0.89以上,召回率达到0.87以上,总体效果相对较好,能够较为准确地实现图书功用特征的提取。
[期刊] 图书情报工作
[作者]
王东波 黄水清 何琳
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的
[期刊] 国家图书馆学刊
[作者]
王东波 高瑞卿 沈思 李斌
结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析,构建特征模板。在已有的465,197个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。
[期刊] 图书情报工作
[作者]
黄水清 王东波 何琳
[目的/意义]在人文计算兴起这一背景下,为了更加深入和精准地从古代典籍中挖掘出相应的知识,针对先秦文献进行自动分词的探究。[方法/过程]基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表,在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上,通过条件随机场模型,结合使用统计和人工内省方法确定的特征模板,完成对先秦典籍进行自动分词的探究。[结果/结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型,最好的分词模型调和平均值达到97.47%,具有较强的推广和应用价值。在构建自动分词模型的过程中,通过融入内部和外部的特征知识,模型的精确率...
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除