标题
  • 标题
  • 作者
  • 关键词
登 录
当前IP:忘记密码?
年份
2024(4284)
2023(6258)
2022(5195)
2021(5023)
2020(4114)
2019(9152)
2018(9027)
2017(16141)
2016(9248)
2015(10513)
2014(10687)
2013(10290)
2012(9553)
2011(8638)
2010(8563)
2009(7651)
2008(7371)
2007(6638)
2006(5840)
2005(5228)
作者
(26735)
(22084)
(21859)
(20792)
(13925)
(10821)
(10220)
(8478)
(8477)
(7977)
(7652)
(7416)
(7352)
(6933)
(6819)
(6722)
(6708)
(6363)
(6347)
(6342)
(5597)
(5542)
(5114)
(5069)
(5035)
(4927)
(4874)
(4818)
(4593)
(4505)
学科
(34689)
经济(34654)
管理(20975)
(16520)
地方(13982)
(12773)
(12584)
企业(12584)
(9864)
中国(9555)
方法(9407)
地方经济(7885)
业经(7383)
数学(7350)
理论(7295)
数学方法(7222)
农业(6976)
(6956)
(6297)
教育(6147)
环境(6124)
教学(5878)
(5539)
经济学(4755)
(4394)
(4326)
金融(4322)
(4308)
贸易(4301)
(4274)
机构
学院(123510)
大学(122416)
研究(42692)
(39783)
管理(39691)
经济(38536)
理学(32934)
中国(32348)
理学院(32312)
管理学(31511)
管理学院(31268)
科学(30359)
(27160)
(22286)
(22081)
(21518)
(21449)
师范(21221)
中心(20391)
研究所(20145)
(19301)
业大(18714)
(17582)
农业(17227)
师范大学(16970)
北京(16862)
技术(16704)
(15913)
(15174)
财经(14749)
基金
项目(80627)
科学(61943)
研究(60988)
基金(54412)
(47684)
国家(47211)
科学基金(39477)
社会(34932)
(34381)
社会科(32692)
社会科学(32685)
基金项目(29399)
(28515)
教育(28464)
编号(27341)
自然(25549)
自然科(24818)
自然科学(24815)
自然科学基金(24302)
成果(23087)
资助(20544)
课题(19526)
(19006)
重点(18830)
(16555)
(16520)
(15822)
项目编号(15806)
创新(15463)
科研(15344)
期刊
(51710)
经济(51710)
研究(36023)
中国(29752)
学报(22738)
教育(21689)
(19972)
科学(18869)
(16941)
大学(15848)
学学(14029)
农业(13315)
管理(13069)
图书(12516)
技术(11728)
书馆(9279)
图书馆(9279)
(9261)
金融(9261)
业经(9045)
资源(8110)
(7412)
(7109)
经济研究(6983)
职业(6709)
(6688)
财经(6610)
问题(6596)
(6527)
论坛(6527)
共检索到194790条记录
发布时间倒序
  • 发布时间倒序
  • 相关度优先
文献计量分析
  • 结果分析(前20)
  • 结果分析(前50)
  • 结果分析(前100)
  • 结果分析(前200)
  • 结果分析(前500)
[期刊] 图书情报工作  [作者] 黄水清  王东波  何琳  
[目的/意义]在人文计算兴起这一背景下,为了更加深入和精准地从古代典籍中挖掘出相应的知识,针对先秦文献进行自动分词的探究。[方法/过程]基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表,在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上,通过条件随机场模型,结合使用统计和人工内省方法确定的特征模板,完成对先秦典籍进行自动分词的探究。[结果/结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型,最好的分词模型调和平均值达到97.47%,具有较强的推广和应用价值。在构建自动分词模型的过程中,通过融入内部和外部的特征知识,模型的精确率...
[期刊] 图书情报工作  [作者] 王东波  黄水清  何琳  
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的
[期刊] 图书馆论坛  [作者] 刘畅  王东波  胡昊天  张逸勤  李斌  
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 图书馆论坛  [作者] 赵连振  张逸勤  刘江峰  王东波  冯敏萱  李斌  
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 情报学报  [作者] 王东波  高瑞卿  沈思  李斌  
近年来,自动问答系统已成为机器学习、信息检索和自然语言处理领域的研究热点。问句分类作为问答系统要处理的第一步,其分类结果的好坏直接影响问答系统的质量,但目前大部分问句分类研究集中在现代汉语领域,针对古文相关内容的问句分类研究相对较少。本文从问句分类的概念出发,构建了古文文献问句分类体系,然后利用TF-IDF提取类别特征词,先后利用支持向量机、条件随机场、深度学习模型完成针对先秦10部典籍的问句自动分类实验。结果表明,3种分类模型中,使用Bi-LSTM模型分类效果最好,在本文提出的7种类别上,达到调和平均值94.78%,具有较强的推广和应用价值。
[期刊] 图书情报工作  [作者] 王东波  何琳  黄水清  
[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。
[期刊] 数据分析与知识发现  [作者] 王晓玉  李斌  
【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。【局限】分词
[期刊] 图书馆论坛  [作者] 张士男  
叙词表结构的属性异构为开展知识组织体系的集成服务带来障碍。文章以理学叙词表为例,梳理叙词表属性字段,在此基础上提出知识组织体系集成建设元数据框架,采用核心元素集与扩展元素集共建的设计思路。
[期刊] 国家图书馆学刊  [作者] 王东波  高瑞卿  沈思  李斌  
结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析,构建特征模板。在已有的465,197个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。
[期刊] 图书馆杂志  [作者] 张琪玉  
自动抽词与自动分词既有紧密联系又有重大差别。自动抽词标引除编制题内关键词索引外,至今没有突破性进展,主要是检准率太低。本文指出自动抽词标引研究注重在各种更有效的算法的寻找,而忽视对相关问题的深入、系统的研究,是其进展缓慢的重要原因之一,并具体列举了一些相关问题。
[期刊] 情报理论与实践  [作者] 丁晟春  傅柱  
文章在基于叙词表的本体构建方法基础上,从该方法本体构建现状研究入手,针对基于叙词表向领域本体转化的一系列问题,如叙词表词间一些不确定关系表示,构建过程的OWL关系表示的细化以及叙词表转化为本体后的维护扩展等,对本体和叙词表的相关知识进行论述,并利用OWL语言来表示和描述叙词表的叙词及词间的相关关系,提出从叙词表向本体转化的理论实践方法。
[期刊] 情报理论与实践  [作者] 杜慧平  朱晓霞  何琳  
提出了一套适用于网络环境中信息资源组织用领域叙词表自动编制方案,系统地阐述了自动编制过程中的步骤,并介绍了其中的关键技术,包括词表收词选词原则与方法,等同关系、等级关系和相关关系的自动识别方法和技术。最后指出,只有不断地维护和更新才能保证词表具有永久的生命力。
[期刊] 情报学报  [作者] 李家福  张亚非  
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。
[期刊] 图书情报工作  [作者] 吴梦成  林立涛  齐月  黄水清  王东波  刘浏  
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。
[期刊] 图书馆杂志  [作者] 薛春香  侯汉清  
新的信息环境引发了检索机制的变革,为适应网络环境中标引和检索的需要,叙词表词汇控制机制发生了相应变化。文章从词类控制、词量控制、词形控制、词义控制、词间关系控制、先组度控制等方面对网络环境下叙词表编制中的词汇控制的变化进行探讨。文章认为网络环境下叙词表词汇控制机制应向受控语言自然语言化方向发展,表现出选词和规范化控制的弱化、结构化控制的强化、控制技术的智能化以及词汇控制与互操作相结合等特点。
文献操作() 导出元数据 文献计量分析
导出文件格式:WXtxt
作者:
删除