标题
  • 标题
  • 作者
  • 关键词
登 录
当前IP:忘记密码?
年份
2024(8689)
2023(12574)
2022(11127)
2021(10536)
2020(8828)
2019(20497)
2018(20269)
2017(39601)
2016(21141)
2015(23721)
2014(23502)
2013(22870)
2012(20705)
2011(18319)
2010(17849)
2009(16001)
2008(15031)
2007(12596)
2006(10578)
2005(8681)
作者
(58051)
(48275)
(47809)
(45548)
(30638)
(23204)
(21845)
(19189)
(18461)
(16816)
(16556)
(15974)
(15021)
(15006)
(14933)
(14468)
(14388)
(14381)
(13745)
(13609)
(11848)
(11623)
(11482)
(11104)
(10780)
(10683)
(10462)
(10452)
(9596)
(9590)
学科
(83127)
经济(83042)
管理(59934)
(56814)
(47805)
企业(47805)
方法(42969)
数学(37619)
数学方法(37090)
(20953)
(20368)
(20123)
中国(20055)
业经(17790)
地方(15453)
理论(14562)
(14252)
贸易(14247)
农业(14193)
(13834)
(13634)
财务(13564)
财务管理(13537)
技术(13511)
(13276)
环境(12890)
企业财务(12835)
(12231)
(11337)
教育(10691)
机构
大学(291560)
学院(289126)
管理(120966)
(112649)
经济(110325)
理学(106659)
理学院(105552)
管理学(103562)
管理学院(103044)
研究(89378)
中国(64117)
(60213)
科学(57028)
(49172)
业大(44336)
(43300)
(42574)
中心(41441)
财经(41305)
研究所(39424)
(38973)
(38160)
师范(37798)
(37756)
北京(37020)
农业(33997)
经济学(33931)
(33055)
(32078)
财经大学(31194)
基金
项目(211232)
科学(166784)
基金(154367)
研究(153998)
(133837)
国家(132766)
科学基金(115618)
社会(96771)
社会科(91730)
社会科学(91705)
基金项目(82775)
(82342)
自然(76458)
自然科(74703)
自然科学(74685)
自然科学基金(73307)
教育(71371)
(69134)
资助(63327)
编号(63097)
成果(49230)
重点(46597)
(46523)
(44156)
(43917)
课题(41978)
创新(41134)
科研(40827)
教育部(40298)
大学(39998)
期刊
(111465)
经济(111465)
研究(79558)
学报(45714)
中国(45292)
管理(41849)
科学(41621)
(37757)
(36353)
大学(35022)
学学(32861)
教育(31402)
农业(26991)
技术(26266)
财经(19046)
业经(19014)
(18403)
金融(18403)
经济研究(17789)
图书(16582)
(16133)
统计(15130)
问题(14597)
理论(14365)
科技(14260)
技术经济(13743)
实践(13428)
(13428)
(13287)
(13235)
共检索到392522条记录
发布时间倒序
  • 发布时间倒序
  • 相关度优先
文献计量分析
  • 结果分析(前20)
  • 结果分析(前50)
  • 结果分析(前100)
  • 结果分析(前200)
  • 结果分析(前500)
[期刊] 情报理论与实践  [作者] 梁刚  
分词是所有中文信息处理工作的基础,也是汉语信息处理的难点之一,如何识别文中出现的新词更成为当前研究的重点之一。本文综合利用几种传统的机械分词方法,加上统计学的方法,提出了一种从文献中抽取新词的新方法。
[期刊] 图书情报工作  [作者] 王若佳  赵常煜  王继民  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。
[期刊] 情报理论与实践  [作者] 杨建林  张国梁  
An algorithm for automatic segmentation of Chinese word,which is an improved version of the minimum matching algorithm,is put forward.The key idea of the algorithm is to optimize the word bank and the matching process to enhance the speed and accuracy of word segmentation.By integrating the case ban...
[期刊] 图书情报工作  [作者] 侯丽  李姣  侯震  陈松景  
[目的 /意义]从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法 /过程]设计规则与NGram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果 /结论]从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处...
[期刊] 图书情报工作  [作者] 钱智勇  周建忠  童国平  苏新宁  
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。
[期刊] 沈阳农业大学学报(社会科学版)  [作者] 吴普云  林峻  
作为认知主体的人类的心智活动所涉及的范畴、概念、思维、语言及意义等都是依靠其自身的身体经验、"个体经验或群体经验,最后通过语言符号来表征认知主体依靠心智活动产生的心理表征。"奴"族新词的出现就是人类在不断的社会实践活动中所产生的心理表征和语言表征,可从人脑体验性、认知机制体验性及语言体验性三个维度阐释"奴"族新词语义构建及认知的哲学体验性。
[期刊] 图书情报工作  [作者] 王巍洁   任慧玲   李晓瑛   王勖   张颖  
[目的/意义]为提高机器理解医学文本的能力,提高医学自然语言处理等上层任务效果,保障医学知识内容更新及时性、覆盖完整性,提出一种融合汉字多语义信息与文本统计特征的医学新词发现方法。[方法/过程]以规范用词的医学文献摘要数据为新词发现来源,基于N-gram模型获取N元词串,将词串存入字典树,从词的内部凝固度、词的自由程度、词的语义相似度3个角度同时计算每个N-gram词串的关联置信度、左右邻接熵、多语义相似度(包括汉字细粒度字符语义信息、BERT词向量信息),遍历上述各指标阈值评估N-gram词串为医学新词的可能。[结果/结论 ]从中华医学会收录的截至2022年10月20日的最新1 000篇文摘中发现医学新词3 263个,去除重复项后,共获得764个医学新词。提出的融合汉字多语义与文本统计特征的医学新词发现方法对比现有方法具有一定提升,且在应用上可以有效提高医学分词任务效果,使医学分词后的名词类别更清晰、概念更明确、内涵更丰富。结合汉字内在多语义信息与字词外部统计特征的医学新词发现方法,不仅可以提高计算机的新词发现能力,还可提高计算机面对专业且复杂的医学文本自然语言处理效果,对及时更新领域知识内容等具有重要帮助。
[期刊] 图书馆杂志  [作者] 张琪玉  
自动抽词与自动分词既有紧密联系又有重大差别。自动抽词标引除编制题内关键词索引外,至今没有突破性进展,主要是检准率太低。本文指出自动抽词标引研究注重在各种更有效的算法的寻找,而忽视对相关问题的深入、系统的研究,是其进展缓慢的重要原因之一,并具体列举了一些相关问题。
[期刊] 情报学报  [作者] 李家福  张亚非  
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。
[期刊] 清华大学学报(自然科学版)  [作者] 张婧  黄德根  黄锴宇  刘壮  孟祥主  
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,以确保所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax这3种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除使用当前字的上下文作为特征外,还利用字向量自动计算当前
[期刊] 数据分析与知识发现  [作者] 王晓玉  李斌  
【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。【局限】分词
[期刊] 情报学报  [作者] 郭祥昊  钟义信  杨丽  
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现
[期刊] 情报理论与实践  [作者] 王英  马海群  
本文运用WordStat软件,以美国情报科学与技术学会的BASIST上的论文作为研究对象,利用词频统计法对1998年10月至2009年1月期间Special Section上所载的论文进行统计分析,进而探讨美国情报学研究的热点和新兴研究主题,以求对我国情报学的科研有一定的学术导向作用。
[期刊] 情报理论与实践  [作者] 岑咏华  
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想。最后,论文对所研究技术方案进行了系统实现。系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能。
[期刊] 情报理论与实践  [作者] 颜端武  李兰彬  曲美娟  
文章提出一种基于N-gram复合分词的领域概念自动获取方法,在中文分词的基础上进行N元复合切分,通过建立一系列过滤规则,提取候选领域概念;然后以改进的TF-IDF作为衡量领域相关性的统计特征值,计算候选概念的领域相关性;最后进行人工辅助判断与筛选。以航空发动机领域语料为样本进行了实践探索,实验结果表明该方法能有效抽取专业领域概念,具有较强的实用性。
文献操作() 导出元数据 文献计量分析
导出文件格式:WXtxt
作者:
删除