标题
  • 标题
  • 作者
  • 关键词
登 录
当前IP:忘记密码?
年份
2024(10212)
2023(14923)
2022(13012)
2021(12112)
2020(10209)
2019(23421)
2018(23105)
2017(44881)
2016(24170)
2015(26976)
2014(26650)
2013(26134)
2012(23706)
2011(21147)
2010(20781)
2009(18438)
2008(17637)
2007(14831)
2006(12471)
2005(10438)
作者
(67953)
(56709)
(56073)
(53606)
(36005)
(27334)
(25603)
(22368)
(21494)
(19923)
(19440)
(18948)
(17906)
(17643)
(17534)
(17287)
(17085)
(16857)
(16207)
(16099)
(14037)
(13723)
(13657)
(12959)
(12659)
(12481)
(12477)
(12361)
(11295)
(11268)
学科
(91106)
经济(91001)
管理(68966)
(65270)
(55205)
企业(55205)
方法(46698)
数学(40785)
数学方法(40197)
(23923)
(23484)
(22775)
中国(22275)
业经(20149)
地方(17196)
理论(16137)
技术(16112)
(16072)
财务(16002)
财务管理(15974)
农业(15830)
(15652)
贸易(15645)
(15191)
企业财务(15183)
(14962)
(14951)
环境(14188)
(13034)
(12659)
机构
大学(333266)
学院(330772)
管理(134526)
(126296)
经济(123572)
理学(118337)
理学院(117035)
管理学(114735)
管理学院(114145)
研究(106755)
中国(77379)
科学(69523)
(69384)
(56981)
(53779)
(52612)
业大(52219)
中心(49251)
研究所(48622)
财经(47140)
(45833)
(44100)
师范(43634)
(43186)
北京(42655)
农业(42358)
(39679)
经济学(37830)
(37515)
财经大学(35684)
基金
项目(242204)
科学(191164)
基金(177589)
研究(172982)
(156120)
国家(154900)
科学基金(133699)
社会(108434)
社会科(102818)
社会科学(102791)
基金项目(95282)
(94102)
自然(89856)
自然科(87818)
自然科学(87794)
自然科学基金(86174)
(80101)
教育(79796)
资助(72502)
编号(69825)
成果(54864)
重点(54341)
(53108)
(50582)
(50534)
科研(47395)
创新(47157)
课题(46881)
教育部(45435)
大学(45038)
期刊
(125862)
经济(125862)
研究(90160)
学报(56500)
中国(56486)
科学(51266)
(46988)
管理(46940)
大学(42687)
(42652)
学学(40259)
教育(34985)
农业(32974)
技术(28825)
(22906)
金融(22906)
财经(21951)
业经(21207)
经济研究(20357)
(18664)
图书(18504)
科技(16987)
(16864)
问题(16490)
(16193)
理论(15767)
资源(15363)
技术经济(15303)
实践(14660)
(14660)
共检索到454835条记录
发布时间倒序
  • 发布时间倒序
  • 相关度优先
文献计量分析
  • 结果分析(前20)
  • 结果分析(前50)
  • 结果分析(前100)
  • 结果分析(前200)
  • 结果分析(前500)
[期刊] 图书情报工作  [作者] 王东波  黄水清  何琳  
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的
[期刊] 图书馆论坛  [作者] 耿云冬  张逸勤  刘欢  王东波  
在深度学习技术不断发展和预训练语言模型不断改进的背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SIKU-BERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明,SIKU-BERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。
[期刊] 图书情报工作  [作者] 王东波  何琳  黄水清  
[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。
[期刊] 情报学报  [作者] 王东波  高瑞卿  沈思  李斌  
近年来,自动问答系统已成为机器学习、信息检索和自然语言处理领域的研究热点。问句分类作为问答系统要处理的第一步,其分类结果的好坏直接影响问答系统的质量,但目前大部分问句分类研究集中在现代汉语领域,针对古文相关内容的问句分类研究相对较少。本文从问句分类的概念出发,构建了古文文献问句分类体系,然后利用TF-IDF提取类别特征词,先后利用支持向量机、条件随机场、深度学习模型完成针对先秦10部典籍的问句自动分类实验。结果表明,3种分类模型中,使用Bi-LSTM模型分类效果最好,在本文提出的7种类别上,达到调和平均值94.78%,具有较强的推广和应用价值。
[期刊] 情报学报  [作者] 徐飞  叶文豪  宋英华  
词性自动标注的准确率和召回率直接影响到后续食品安全事件各个层面知识和应对策略挖掘的整体效果,不仅直接影响食品安全事件中术语、实体抽取的性能,而且在一定程度上决定了与食品安全事件相关的分类、聚类和关联知识挖掘的精准度。本文分别基于CRF、RNN、BiLSTM和BiLSTM-CRF等传统机器学习模型与深度学习模型对食品安全事件文本进行词性自动标注实验。四十组实验结果表明,在未加入任何人工特征的条件下,深度学习模型的标注调和平均值高于传统的条件随机场模型,其中RNN和BiLSTM的调和平均值分别高出了2.43%和3.93%。而有机融合了BiLSTM和条件随机场模型两者最优特征的BiLSTM-CRF模型整体性能达到了最优,其中调和平均值比BiLSTM高出了7.12%,并且其中最优模型的调和平均值达到了95.89%。
[期刊] 国家图书馆学刊  [作者] 王东波  高瑞卿  沈思  李斌  
结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析,构建特征模板。在已有的465,197个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。
[期刊] 图书情报工作  [作者] 黄水清  王东波  何琳  
[目的/意义]在人文计算兴起这一背景下,为了更加深入和精准地从古代典籍中挖掘出相应的知识,针对先秦文献进行自动分词的探究。[方法/过程]基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表,在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上,通过条件随机场模型,结合使用统计和人工内省方法确定的特征模板,完成对先秦典籍进行自动分词的探究。[结果/结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型,最好的分词模型调和平均值达到97.47%,具有较强的推广和应用价值。在构建自动分词模型的过程中,通过融入内部和外部的特征知识,模型的精确率...
[期刊] 图书情报工作  [作者] 吴梦成  林立涛  齐月  黄水清  王东波  刘浏  
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。
[期刊] 图书馆论坛  [作者] 赵连振  张逸勤  刘江峰  王东波  冯敏萱  李斌  
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
[期刊] 图书馆论坛  [作者] 刘畅  王东波  胡昊天  张逸勤  李斌  
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 情报理论与实践  [作者] 邓淑卿  李玩伟  徐健  
[目的/意义]针对传统的情感词词典构造方法对新词判断准确率不够理想,领域拓展性较差等问题,提出基于句法依赖规则和词性特征的情感词识别模型。[方法/过程]以京东商城i Phone 6s的商品评论为语料,通过使用Stanford Parser句法分析工具、情感种子词典、基于评论语料的人工标注情感词典、手机对象词典等外部数据,构建基于句法依赖规则以及词性特征的情感词识别模型。[结果/结论]实验表明,该模型能有效识别手机领域中的情感词,准确率达到84.89%,且无需人工干预。[局限]情感词识别匹配模型规模偏小,模
[期刊] 图书情报工作  [作者] 钱智勇  周建忠  童国平  苏新宁  
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。
[期刊] 图书情报工作  [作者] 常博林  万晨  李斌  陈欣雨  冯敏萱  王东波  
[目的/意义]探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程]以《资治通鉴·周秦汉纪》为例,对68卷60万字的文本自动分词与词性标注之后,人工标注文本中的人物、地点GIS、时间等实体信息,实现基于词和实体的全文检索和地图检索系统;利用同现信息,统计出人物关系与人物游历信息;进而使用TF-IDF方法,通过时间序列分析,挖掘出多事之秋、风云人物、风云之地等结果。[结果/结论]基于词和实体的深度信息标注,能够解决缺乏词界、同名异指和异名同指的检索难题,更可以为古籍多角度的知识发掘与知识服务提供基础支撑。
[期刊] 图书情报工作  [作者] 何琳  马晓雯  喻雪寒  艾毓茜  李章超  高丹  
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。
[期刊] 图书馆论坛  [作者] 吴梦成   林立涛   胡蝶   刘畅   黄水清   孟凯   王东波  
中国存世典籍成书于不同时代,典籍文本的语体风格及内容均具有时代性。文章以古代汉语到现代汉语的机器翻译为切入点,探究典籍文本的时代特征及其对中国古代典籍机器翻译的影响,提出针对不同历史时期训练翻译模型的策略,以提高古文翻译质量。以《二十四史全译》为研究语料,将语料划分为远古、中古、近古三个时期,从计算人文视角利用统计计量的方法对不同历史时期典籍文本的词频、词性、依存关系进行比较分析;在数据增强的基础上,利用每个时期的语料分别训练多种机器翻译模型并比较翻译效果。研究发现:典籍文本存在时代特征差异,并会对机器翻译效果产生显著影响;针对不同时期典籍文本分别训练机器翻译模型,能够提高古文翻译的准确性和流畅性。
文献操作() 导出元数据 文献计量分析
导出文件格式:WXtxt
作者:
删除