标题
  • 标题
  • 作者
  • 关键词
登 录
当前IP:忘记密码?
年份
2024(7044)
2023(10460)
2022(8913)
2021(8672)
2020(7280)
2019(17191)
2018(17372)
2017(32818)
2016(17804)
2015(20500)
2014(20476)
2013(19916)
2012(18310)
2011(16576)
2010(16551)
2009(15146)
2008(14530)
2007(12446)
2006(10913)
2005(9696)
作者
(49062)
(41023)
(40936)
(38928)
(26042)
(19523)
(18572)
(16032)
(15779)
(14594)
(14055)
(13961)
(13200)
(13158)
(12829)
(12732)
(12089)
(11851)
(11692)
(11605)
(10403)
(10082)
(9950)
(9501)
(9268)
(9092)
(9029)
(8856)
(8398)
(8252)
学科
(75161)
经济(75081)
管理(43403)
(39507)
方法(34717)
数学(31828)
数学方法(31275)
(29863)
企业(29863)
中国(22766)
(20438)
地方(15368)
(15176)
贸易(15165)
(15111)
(14798)
(14775)
(13768)
业经(13538)
农业(13418)
理论(12161)
(11248)
银行(11230)
(10953)
金融(10944)
(10832)
(10766)
(10742)
环境(10499)
技术(9333)
机构
大学(243606)
学院(242798)
(103865)
经济(101879)
管理(89976)
研究(87334)
理学(77186)
理学院(76265)
管理学(74625)
管理学院(74181)
中国(67853)
(53367)
科学(52379)
(45588)
(43629)
(39956)
研究所(39839)
中心(39643)
财经(36202)
(35499)
业大(35047)
北京(34068)
(33113)
经济学(32900)
(32766)
师范(32427)
(31774)
农业(31351)
经济学院(29609)
(28208)
基金
项目(164091)
科学(129417)
研究(121004)
基金(119440)
(104897)
国家(104105)
科学基金(88473)
社会(76586)
社会科(72620)
社会科学(72605)
(62734)
基金项目(62079)
教育(56778)
自然(56514)
自然科(55284)
自然科学(55270)
自然科学基金(54264)
(53800)
资助(50425)
编号(48890)
成果(40143)
重点(37367)
(37070)
(35868)
课题(35006)
(33954)
国家社会(32415)
创新(31872)
教育部(31836)
科研(31194)
期刊
(111341)
经济(111341)
研究(73328)
中国(52937)
学报(37637)
(36132)
科学(35133)
(34515)
管理(33723)
教育(30819)
大学(28793)
学学(26493)
农业(24986)
技术(23678)
(20633)
金融(20633)
经济研究(19481)
财经(17638)
业经(16625)
(15422)
问题(14987)
(14824)
统计(13804)
图书(13717)
(13498)
世界(12783)
(12036)
国际(11949)
技术经济(11907)
资源(11600)
共检索到367967条记录
发布时间倒序
  • 发布时间倒序
  • 相关度优先
文献计量分析
  • 结果分析(前20)
  • 结果分析(前50)
  • 结果分析(前100)
  • 结果分析(前200)
  • 结果分析(前500)
[期刊] 图书馆论坛  [作者] 谢靖  刘江峰  王东波  
古代中国医学文献是中华古籍的重要组成部分,含有丰富的中医学知识,是中医理论研究的重要载体和思想源泉。标注古代中医文献的命名实体,能进一步挖掘其蕴藏的中医学知识,推进中医现代化发展。文章基于BERT-base、RoBERTa、SikuBERT、SikuRoBERTa预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。实验结果表明:直接使用古文繁体BERT模型对古代中医文献进行领域命名实体识别,则基于繁体《四库全书》的SikuBERT、SikuRoBERTa预训练模型效果要优于BERT-base、RoBERTa模型;在引入Flat-lattice Transformer(FLAT)结构作为微调模型后,SikuBERT在有标点情况下表现最优,识别效果可以提升4%左右,SikuRoBERTa在无标点情况下表现最优,识别效果可以提高2%~3%。实验验证了FLAT作为微调模型对BERT模型在中医专业领域中古文献命名实体识别工作上的有效性。该微调模型可以有效避免分词错误引起的实体识别传播错误,进而提高中医命名实体的识别效率。
[期刊] 图书馆论坛  [作者] 徐润华  王东波  刘欢  梁媛  陈康  
可以降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究少。文章面向《资治通鉴》语料,基于Siku BERT预训练模型进行自动摘要实验,并对比传统抽取式自动摘要算法和百度智能云摘要分析算法在《资治通鉴》语料上的表现。实验结果表明,基于Siku BERT预训练模型生成的摘要结果在稳定性、覆盖度等方面均优于其他两种方法;通过专家人工打分方式,基于Siku BERT预训练模型生成的摘要结果平均得分最高。实验验证了使用数字人文技术对古文进行自动摘要任务的可行性和利用Siku BERT预训练模型对古文进行信息处理的适用性。
[期刊] 图书馆论坛  [作者] 刘畅  王东波  胡昊天  张逸勤  李斌  
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 清华大学学报(自然科学版)  [作者] 张天宇   孙媛媛   杜文玉   邢铁军   林鸿飞   杨亮  
法律文书命名实体识别是智慧司法的关键任务。现有的序列标注模型仅关注字符信息,导致在法律文书命名实体识别任务中无法获得语义和词语的上下文信息,且无法对实体的边界进行限制。因此,该文提出了一个融合外部信息并对边界限制的司法命名实体识别模型(semantic and boundary enhance named entity recognition, SBENER)。该模型收集了40万条盗窃罪法律文书,首先,预训练模型,将获得的司法盗窃罪词向量作为输入模型的外部信息;其次,设计Adapter,将司法盗窃罪的信息融入字符序列以增强语义特征;最后,使用边界指针网络对实体边界进行限制,解决了序列标注模型丢失词语信息及缺少边界限制的问题。该模型在CAILIE 1.0数据集和LegalC orpus数据集上进行实验,结果表明, SBENER模型在2个数据集上的F1值(F1-score)分别达88.70%和87.67%,比其他基线模型取得了更好的效果。SBENER模型能够提升司法领域命名实体识别的效果。
[期刊] 图书情报工作  [作者] 施国良  陈宇奇  
[目的/意义]政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程]设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论]实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。
[期刊] 图书馆论坛  [作者] 王娟  王志红  曹树金  
命名实体分类和识别是自然语言处理中的关键任务,识别效果将会影响许多下游任务的性能。本文基于现有知识图谱,提出了图情领域9大类实体,并构建了适用于图情领域实体识别的LISERNIE模型。通过开展广泛的实验,结果表明,在预训练阶段注入了图情领域知识的LISERNIE模型能有效识别出命名实体,并且在小规模标注数据集上具有明显的性能优势,在应用到后续的开放域关系抽取实验中,其准确率远高于CORE系统,为进一步构建如知识图谱、问答系统、机器阅读等提供数据支撑。
[期刊] 实验技术与管理  [作者] 蔡伊娜  包先雨  林燕奎  彭锦学  彭智彬  林泳奇  李俊霖  郭云  
针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型。提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点。与已有的BERT-BAC模型相比,在确保较高F_1值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实体识别时间分别缩短60.36%、39.43%,具有更广泛的实用性。
[期刊] 图书馆论坛  [作者] 耿云冬  张逸勤  刘欢  王东波  
在深度学习技术不断发展和预训练语言模型不断改进的背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SIKU-BERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明,SIKU-BERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。
[期刊] 图书馆论坛  [作者] 王东波  刘畅  朱子赫  刘江峰  胡昊天  沈思  李斌  
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已经在相关领域极大地提升了文本挖掘的精度,数字人文研究的兴起亟需面向古文自动处理领域的预训练模型。本文以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建了面向古文智能处理任务的Siku BERT和Siku Ro BERTa预训练语言模型。实验进一步设计了面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对siku Bert、siku Ro BERTa预训练模型和其他三种基线模型(BERT-base、Ro BERTa、Guwen BERT)进行对比试验。结果显示,Siku BERT和Siku Ro BERTa模型在全部4个下游验证任务中的表现均超越其他基准预训练模型。这表明本文提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。进一步,本文基于验证任务效果最优的Siku Ro BERTa预训练模型构建了“SIKU-BERT典籍智能处理平台”。该平台提供了典籍自动处理、检索和自动翻译等三种在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化的方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
[期刊] 图书馆论坛  [作者] 刘江峰  冯钰童  王东波  胡昊天  张逸勤  
利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对推动历史学习、文化自信与文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于Bert-base、RoBERTa、guwenBert、sikuBERT、sikuRoBERTa预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间名等的命名实体识别任务。实验结果表明:sikuBert、sikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能能够产生一定影响;Bert模型更为适应大规模语料任务。实验验证了基于四库全书繁体语料预训练的Bert模型在预训练、微调范式下的典籍命名实体识别的可行性,构建了一个基于sikuBert的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。
[期刊] 图书情报工作  [作者] 孙安  于英香  罗永刚  王祺  
[目的 /意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F_1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法 /过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果 /结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F_1值平均提升了0. 23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。
[期刊] 图书馆杂志  [作者] 范午攸  
科研文献正文中包含未被文摘、题录记载的仪器信息,从正文中有效提取此类信息可作为仪器绩效评估等定量研究的依据。文章以化学领域论文与大型分析仪器为对象,实现了通过语义相似度及构词规律从文献中发现未知仪器名、针对PDF排版的仪器名模糊检索,以及基于文献类型、正文结束标识、使用标识词、全称简称对应关系的实际使用仪器与未使用仪器和同名实体的区分,并与人工标注结果比对验证了准确性。
[期刊] 图书馆论坛  [作者] 周佳骏  
针对采用图像结构方式存储在文献中的特殊实体难以检索,其索引需要人工创建,检索需要专门的服务商提供特权且需使用专门的检索工具等问题,以化学期刊中分子式和化学公式的检索为例,给出增强型WEB搜索引擎模型,能基于语义自动抽取文档中的实体名称、结构及关系并生成索引,通过Google和Yahoo!等常用免费搜索工具即可完成文献检索。实验表明该系统具有较好的客观性、准确性和全面性。
[期刊] 图书馆论坛  [作者] 赵连振  张逸勤  刘江峰  王东波  冯敏萱  李斌  
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 图书馆论坛  [作者] 林立涛  王东波  刘江峰  李斌  冯敏萱  
通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。基于Siku BERT预训练模型构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物命名实体的先秦典籍语料,对Siku BERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证Siku BERT预训练模型的识别性能。结果表明,基于Siku BERT经训练所构建的动物命名实体识别模型效果最优,10折交叉测试的平均调和平均值(F1)为85.46%,最高一次达86.29%,应用于《史记》动物命名实体识别准确率达91.6%。
文献操作() 导出元数据 文献计量分析
导出文件格式:WXtxt
作者:
删除