- 年份
- 2024(709)
- 2023(1015)
- 2022(848)
- 2021(861)
- 2020(662)
- 2019(1571)
- 2018(1629)
- 2017(3191)
- 2016(1650)
- 2015(1911)
- 2014(1721)
- 2013(1693)
- 2012(1523)
- 2011(1305)
- 2010(1154)
- 2009(940)
- 2008(843)
- 2007(638)
- 2006(514)
- 2005(387)
- 学科
- 济(5766)
- 经济(5761)
- 管理(3440)
- 地方(3144)
- 业(2856)
- 农(2124)
- 企(1934)
- 企业(1934)
- 方法(1588)
- 农业(1573)
- 数学(1406)
- 数学方法(1394)
- 地方经济(1384)
- 业经(1368)
- 环境(1211)
- 中国(983)
- 城市(979)
- 和(960)
- 学(920)
- 理论(855)
- 资源(816)
- 财(794)
- 技术(788)
- 教学(774)
- 贸(773)
- 贸易(773)
- 土地(772)
- 城市经济(754)
- 制(751)
- 农业经济(749)
- 机构
- 学院(19330)
- 大学(18714)
- 管理(7512)
- 理学(6519)
- 理学院(6408)
- 管理学(6311)
- 管理学院(6257)
- 研究(5995)
- 济(5974)
- 经济(5753)
- 京(4394)
- 中国(4373)
- 科学(4288)
- 范(3428)
- 师范(3416)
- 中心(3165)
- 业大(3087)
- 江(3036)
- 农(2923)
- 师范大学(2847)
- 所(2590)
- 州(2546)
- 北京(2500)
- 院(2456)
- 财(2396)
- 研究所(2395)
- 农业(2281)
- 技术(2270)
- 职业(2021)
- 资源(1989)
共检索到26452条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 图书馆论坛
[作者]
林立涛 王东波 刘江峰 李斌 冯敏萱
通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。基于Siku BERT预训练模型构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物命名实体的先秦典籍语料,对Siku BERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证Siku BERT预训练模型的识别性能。结果表明,基于Siku BERT经训练所构建的动物命名实体识别模型效果最优,10折交叉测试的平均调和平均值(F1)为85.46%,最高一次达86.29%,应用于《史记》动物命名实体识别准确率达91.6%。
[期刊] 图书馆论坛
[作者]
赵连振 张逸勤 刘江峰 王东波 冯敏萱 李斌
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 图书馆论坛
[作者]
耿云冬 张逸勤 刘欢 王东波
在深度学习技术不断发展和预训练语言模型不断改进的背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SIKU-BERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明,SIKU-BERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。
[期刊] 图书馆论坛
[作者]
胡昊天 张逸勤 邓三鸿 王东波 冯敏萱 刘浏 李斌
四库分类体系具有深远的影响。为解决古籍残本难以辨识所属类别问题,提供面向数字人文领域研究的方法工具,基于面向古文自然语言处理的Siku BERT和Siku Ro BERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、Ro BERTa和Ro BERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,Siku BERT模型取得90.39%的整体分类F值,在天文算法类古籍上达98.83%的分类F值。在类别自动识别任务中,Siku Ro BERTa的预测正确率达95.30%。基于Siku BERT和Siku Ro BERTa预训练语言模型的四库自动分类体系可以有效的将典籍文本划分为所属子部类别,所构建的分类工具为高效自动化典籍分类提供了新的途径。
[期刊] 图书馆杂志
[作者]
余馨玲 常娥
古诗词地名实体识别不仅有助于深度挖掘古诗词文本之间的关联,而且有助于绘制中国诗歌版图分布,推动空间维度的中国古典文学研究。文章围绕南京城系统采集有关古诗词数据,采用BIOES方法进行地名实体标注。针对古诗词领域训练数据匮乏、以字代词等问题,提出一种采用数据增强方法,同时融合预训练模型与条件随机场方法的古诗词地名识别模型,简称DA-BERT-CRF模型。文章将训练数据采用实体交叉互换方法进行数据增强处理,然后通过预训练模型BERT得到古诗词地名的上下文语义信息,最后利用条件随机场CRF实现地名标签约束并生成全局最优地名序列。文章提出的DA-BERT-CRF模型十折交叉实验平均精确率、平均召回率和平均F值分别为86.49%、90.44%、88.35%。
[期刊] 图书馆论坛
[作者]
刘畅 王东波 胡昊天 张逸勤 李斌
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 图书情报工作
[作者]
孙安 于英香 罗永刚 王祺
[目的 /意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F_1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法 /过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果 /结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F_1值平均提升了0. 23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。
[期刊] 图书馆杂志
[作者]
张晓晓 张卫东
数字人文的发展推动了中医古籍数字化的进程,通过构建中医古籍方药库、探索方药库中文本信息之间的隐性关联,发挥方药库的知识服务功能。以产后腹痛为例,通过自动分词、文本实体信息获取、药材性能信息获取、数据存储实现产后腹痛方药库的构建;利用频次分析,探讨中医古籍中产后腹痛的主要证治方法;依托改进的Bina-Apriori算法,挖掘产后腹痛药材配伍规律;通过历时分布分析,挖掘出方药运用贡献较大的时代,实现方药库的知识服务功能。将数字化工具运用于中医古籍的方药库构建及应用过程中,能够实现古籍显性知识的结构化表示及隐性知识的深度挖掘,为中医古籍数字化的发展提供支撑。
关键词:
中医古籍数字化 数字人文 知识挖掘
[期刊] 图书馆论坛
[作者]
谢靖 刘江峰 王东波
古代中国医学文献是中华古籍的重要组成部分,含有丰富的中医学知识,是中医理论研究的重要载体和思想源泉。标注古代中医文献的命名实体,能进一步挖掘其蕴藏的中医学知识,推进中医现代化发展。文章基于BERT-base、RoBERTa、SikuBERT、SikuRoBERTa预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。实验结果表明:直接使用古文繁体BERT模型对古代中医文献进行领域命名实体识别,则基于繁体《四库全书》的SikuBERT、SikuRoBERTa预训练模型效果要优于BERT-base、RoBERTa模型;在引入Flat-lattice Transformer(FLAT)结构作为微调模型后,SikuBERT在有标点情况下表现最优,识别效果可以提升4%左右,SikuRoBERTa在无标点情况下表现最优,识别效果可以提高2%~3%。实验验证了FLAT作为微调模型对BERT模型在中医专业领域中古文献命名实体识别工作上的有效性。该微调模型可以有效避免分词错误引起的实体识别传播错误,进而提高中医命名实体的识别效率。
[期刊] 图书情报工作
[作者]
王秀红 高敏
[目的/意义]好的关键技术识别方法能够更好地为各层各级的关键技术识别、预测和研发提供支撑。[方法/过程]提出基于BERT-LDA模型的关键技术识别方法,通过将BERT与LDA相结合,以弥补单一使用LDA主题模型缺乏上下文语义信息的缺陷,并以农业机器人为例进行实证研究。具体包括以下过程:(1)基于python构建BERT语义特征向量和LDA主题特征向量,将其在高维空间进行向量拼接,利用自编码器学习连接向量的低维潜在空间表示;(2)在潜在空间表示上使用K-means算法实现语义关联聚类,得到二维聚类效果图及关键技术主题词云图;(3)进行关键技术判定;(4)在农业机器人技术领域,与基于德温特TI专利软件的专利分析结果和《中国制造2025》重点领域技术路线图中农业装备关键共性技术清单对比,实证本方法的有效性。[结果/结论]研究表明:BERT-LDA模型提高了主题聚类的连贯性及细粒度划分的精准度;具有很好的关键技术识别精准率和召回率;对识别的不同数据库和出版类型的文献数据集具有较好的包容性与兼容性,适应性强;可广泛应用于各类关键技术的识别。
[期刊] 图书情报工作
[作者]
常博林 万晨 李斌 陈欣雨 冯敏萱 王东波
[目的/意义]探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程]以《资治通鉴·周秦汉纪》为例,对68卷60万字的文本自动分词与词性标注之后,人工标注文本中的人物、地点GIS、时间等实体信息,实现基于词和实体的全文检索和地图检索系统;利用同现信息,统计出人物关系与人物游历信息;进而使用TF-IDF方法,通过时间序列分析,挖掘出多事之秋、风云人物、风云之地等结果。[结果/结论]基于词和实体的深度信息标注,能够解决缺乏词界、同名异指和异名同指的检索难题,更可以为古籍多角度的知识发掘与知识服务提供基础支撑。
[期刊] 图书馆论坛
[作者]
李章超 何琳 喻雪寒
在数字化背景下,如何整合海量、多源和异构的典籍内容知识资源,并从中抽取出与典籍内容相关的知识单元,揭示知识之间的相互关系,成为还原历史事件所处复杂情境的关键。文章尝试从知识组织角度出发,利用历史学者需求调查、LDA主题模型聚类和本体复用等方法构建典籍内容知识表达模型;提出包括事件及其论元构成和事件关系抽取的事理图谱自动化构建方法,从内容和应用的维度实现事理图谱的质量评估。在此基础上,从主题叙事、空间叙事和逻辑叙事的定义域视角,实现典籍内容知识应用。本文构建的典籍内容事理图谱能从更细粒度实现事件与角色、地点、时间和万物的结构化和语义化描述,在实现典籍内容事件知识序化的同时,充分揭示历史事件的分布规律与发展趋势。
[期刊] 图书情报工作
[作者]
崔斌 王东波 黄水清
[目的/意义]我国农作物种植历史悠久,分析古代农作物的时间分布与发展演化情况对优化现代农业种植结构具有重要意义。[方法/过程]提出一套深入典籍文本内容的农作物时间分布及演化特征分析方法流程,主要包括语料获取与数字化、分词与实体关系抽取、时间分布特征分析、演化特征分析4部分,并选取15本史书中的《食货志》文本进行实证分析。[结果/结论]基于《食货志》文本的分析结果得到历史学、经济学、文献学等多学科相关研究资料的佐证,验证了方法的可行性与有效性,可以为基于典籍文本的古代农作物时间分布及演化特征分析提供借鉴。但未来还需要在提高自动化水平、扩大研究样本、细化事件类型等方面进一步优化方法流程。
[期刊] 图书馆建设
[作者]
蔡迎春
国内外很多图书馆都很重视特藏资源建设,伴随着整个社会数字化程度的加深,都开始将馆藏的特色资源数字化。但是,大多图书馆仅是通过简单扫描或建成数据库的形式供用户检索和利用,只有少数图书馆将数字人文理念结合进特藏资源数字化建设中,利用数字人文相关技术,对数据库中的数据和知识进行深度挖掘,并以可视化的方式提供分析和研究。鉴于此,上海师范大学图书馆在确定了以数字化的特色馆藏服务教学和科研的目标以后,将馆藏民国文献的整理与研究作为突破口,把"原版民国时期文献"和建国后出版的"新版民国时期文献"(包括编校、再版和影印出版)结合起来,建设一个能充分揭示民国时期文献及整理成果子目内容的目录数据库——"民国时期文献目录数据平台"(以下简称"数据平台"),不仅有效促进人文学者对民国文献的分析和研究,而且为民国文献整理出版和采集的有章可循提供依据。
关键词:
数字人文 特藏资源 数字化 民国时期文献
[期刊] 图书馆
[作者]
胡以涛 惠富平
针对农业文化遗产数字信息资源管理及价值再现挖掘,本研究从人文对象数字化实体信息抽取、元数据元素定义与描述规范构建、基于元数据的信息库建设、元数据应用体系构建四个环节,探索了利用元数据方法开展人文对象规范化信息组织的应用过程。文章以农业文化遗产保护和研究为例,提炼了农业文化遗产数字资源的核心元数据集,选择了国际通用的都柏林元数据(DC)规范,并根据农业文化遗产特点进行元素扩展,采用RDF/XML描述方案,构建一套完整的人文对象数字资源元数据标准。实践表明,元数据方法的采用,有利于对数字人文对象的科学管理与研究应用。
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除