- 年份
- 2024(3037)
- 2023(4593)
- 2022(4094)
- 2021(4113)
- 2020(3662)
- 2019(8652)
- 2018(9020)
- 2017(17265)
- 2016(9464)
- 2015(11160)
- 2014(11291)
- 2013(10826)
- 2012(9929)
- 2011(9035)
- 2010(9487)
- 2009(8822)
- 2008(8809)
- 2007(8081)
- 2006(7178)
- 2005(6529)
- 学科
- 济(39880)
- 经济(39839)
- 管理(28638)
- 业(24688)
- 方法(23392)
- 企(22315)
- 企业(22315)
- 数学(20141)
- 数学方法(19450)
- 学(11174)
- 理论(9228)
- 中国(9163)
- 农(8096)
- 财(7650)
- 业经(7379)
- 技术(7094)
- 和(6794)
- 制(6763)
- 贸(6727)
- 贸易(6719)
- 易(6548)
- 教学(6113)
- 策(5921)
- 划(5586)
- 地方(5269)
- 银(5213)
- 银行(5197)
- 农业(4971)
- 行(4917)
- 教育(4758)
- 机构
- 大学(140186)
- 学院(137949)
- 管理(54978)
- 济(49071)
- 经济(47715)
- 理学(47097)
- 理学院(46587)
- 管理学(45058)
- 管理学院(44845)
- 研究(43247)
- 中国(34022)
- 京(30819)
- 科学(29826)
- 所(22668)
- 财(22178)
- 农(21835)
- 业大(21406)
- 江(21382)
- 中心(21157)
- 研究所(20575)
- 北京(19470)
- 范(18498)
- 师范(18304)
- 财经(17631)
- 农业(17301)
- 州(17275)
- 技术(16922)
- 经(15759)
- 院(15372)
- 工程(14615)
- 基金
- 项目(90349)
- 科学(70623)
- 基金(65349)
- 研究(62175)
- 家(57645)
- 国家(57250)
- 科学基金(49465)
- 社会(37103)
- 社会科(35237)
- 社会科学(35227)
- 省(34993)
- 自然(34572)
- 自然科(33914)
- 自然科学(33908)
- 自然科学基金(33241)
- 基金项目(33201)
- 教育(30300)
- 划(29946)
- 资助(29723)
- 编号(26239)
- 成果(22024)
- 重点(20181)
- 部(19039)
- 创(18093)
- 科研(17533)
- 课题(17493)
- 计划(17416)
- 发(17303)
- 创新(16947)
- 项目编号(16887)
共检索到209184条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报学报
[作者]
张民 李生 赵铁军
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
关键词:
n元语法,统计,信息熵,知识获取
[期刊] 情报理论与实践
[作者]
王知津
<正>由南京农业大学黄水清和王东波教授编写、南京大学出版社出版的《大规模现代汉语分词语料库构建及应用》一书正式问世了!该书以“新时代人民日报分词语料库”(New Era People’s Daily Segmented Corpus,以下简称NEPD)为研究对象。NEPD收录了2015年1—6月、2016年1月、2017年1月、2018年1月、2022年1月共10个月《人民日报》上刊发的全部文章,构建了迄今规模最大的精加工现代汉语通用分词语料库,超过3000万字符量,向全世界学术界开放供免费获取。在此之前的现代汉语通用语料库中,规模超百万字且为人工标注精加工的,只有1998月1月的北京大学人民日报语料库。NEPD既接续了北京大学1998年1月人民日报语料库,又弥补了北京大学人民日报语料库20多年没有更新以及在词汇的时效性、完备性和覆盖度方面存在的不足,以其高标准的原始语料、高质量的人工标注以及开放共享的理念,支持并促进了图书情报学、语言学、计算机科学等相关学科领域的研究与发展,赢得了学术界的广泛认同和赞誉。在NEPD的数据选取标准、加工流程、应用示范等方面,《大规模现代汉语分词语料库构建及应用》一书给出了至今最为详尽和全面的阐述。该书不仅介绍了NEPD构建的背景、缘由、目的、原则、过程、规范和应用,而且还展望了精标注语料库在当前以深度学习为标志的人工智能发展热潮中的关键作用和重要价值。
[期刊] 情报理论与实践
[作者]
颜端武 李兰彬 曲美娟
文章提出一种基于N-gram复合分词的领域概念自动获取方法,在中文分词的基础上进行N元复合切分,通过建立一系列过滤规则,提取候选领域概念;然后以改进的TF-IDF作为衡量领域相关性的统计特征值,计算候选概念的领域相关性;最后进行人工辅助判断与筛选。以航空发动机领域语料为样本进行了实践探索,实验结果表明该方法能有效抽取专业领域概念,具有较强的实用性。
关键词:
概念 概念抽取 复合分词 领域相关性
[期刊] 中国特殊教育
[作者]
吕会华 吴铃 张会文
目前对聋人汉语书面语的研究尚停留在经验层面。基于聋人汉语书面语语料库的研究,可以解决语料少,作者信息不清以及和其他汉语作为第二语言习得者对比困难等问题。随着对聋人汉语书面语研究的深入,聋人的汉语水平也将得到提高。语料库建设是一项长期、繁重的工作,本研究在考察了几个汉语学习者语料库的基础上,提出了自己的建库构想。确定了语料属性、语料标注标准等。在理论研究的同时,着手进行聋人汉语书面语语料库的初步建设,取得了一定成绩。
关键词:
聋人 汉语书面语 语料库
[期刊] 图书情报工作
[作者]
黄水清 王东波 何琳
[目的/意义]在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程]对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论]在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。
[期刊] 中国特殊教育
[作者]
钟经华 李健 高旭 阎嘉
汉语盲文语料库是进行汉语盲文研究和汉语盲文信息化的重要基础资源。通过盲文语料库能够掌握现行盲文的实际使用情况,能够为研发符合盲文分词连写和标调特点的信息化工具奠定基础。语料库方法能够突破盲文研究中诱导法和内省法的局限,占领盲文本体研究的国际制高点。盲文语料库对促进盲人语言文字权益平等、改进盲文教学、改善盲文生态有重要的理论意义和实践意义。
关键词:
盲文 语料库 意义
[期刊] 图书情报工作
[作者]
于津凯 王映雪 陈怀楚
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。
[期刊] 数理统计与管理
[作者]
凤丽洲 杨贵军 徐雪 徐玉慧
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标P_n,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、P_n和F_1值。
[期刊] 情报学报
[作者]
何浩 杨海棠
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。
[期刊] 情报学报
[作者]
刘小虎 吴葳 李生 赵铁军 蔡萌 鞠英杰
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的
关键词:
语料库,词汇级对齐,共现概率
[期刊] 情报理论与实践
[作者]
裘江南 王延章 杜云阶
为应急决策者提供快速而准确的决策知识和决策支持一直是应急领域的研究热点。本文首先构建了一个突发事件的基于框架的知识模型,可用于表示各类突发事件的知识。进而提出一种针对应急领域文本的基于知识模型的事实获取方法,主要包括文本预处理、事实的获取、事实的检验3个部分。最后通过实验验证了该方法的有效性,并取得了良好的效果。该模型为事实间的关系模式获取提供了基础,最终可为应急决策提供知识支持。
关键词:
知识模型 应急管理 突发事件
[期刊] 中国特殊教育
[作者]
李恒 吴铃
手语语料库作为手语语言学理论研究的一项具体实践以及研究成果的集中体现,目前已经成为一门专门的学科领域。本文主要结合手语语料库两大基本特征——样本的代表性和语料的机读形式化,介绍其建设的一般方法:1)从语料的搜集来看,词汇、对象和地区的选取都应当采取科学的社会语言学的调查方法,以保证样本的代表性;2)从语料的处理来看,应该突破纯文本转写的劣势,利用多媒体转写软件对语料进行分割、转写和标注。文章另外指出了手语语料库建设对于语言研究的积极意义。
关键词:
手语语料库 采集标准 基本概念 操作方法
[期刊] 情报学报
[作者]
李家福 张亚非
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。
关键词:
分词 汉语 EM算法 语料库 HMM
[期刊] 统计研究
[作者]
高庆丰
二十世纪初,日本统计学家横山雅男说:“汉语‘统计’一词的含义,与‘合计’、‘总计’相同。”继之,他的学生沈秉诚更说:“我国‘统计’二字流传亦久,惟其义创用之于动词,如‘合计’、‘总计’等字是。”二十世纪三十年代,我国统计学家吴大钧说:“我国统计肇端最早,自三代以迄有清,统计资料散见于历代官书,惟虽有统计之实,向无统计之名”。我国统计史学家卫聚贤说:“按‘统计’二字在我国有共统一起计算之义”,又说:“日人初译此名词为‘政表’、‘综计’、‘国势’,‘政算’等。至明治十四年(公元1881年)统计院成立,此名始确定。中国用‘统计’二字是自日本搬来的。”
[期刊] 中国职业技术教育
[作者]
兰杰 毛怀周
本文主要从计算机辅助教学模式入手,对计算机辅助教学的历史演变回顾的同时,举例说明计算机辅助教学模式在语料库语言学在外语教学中的具体应用。这些运用主要有借助计算机系统的词汇一致性检索、辅助测验和分值计算、CLEC和外语语料库文本的多方位统计等,从而提出当代现代教育技术在外语教学中的应用趋势和发展。
关键词:
计算机辅助教学 语料库语言学 外语教学
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除