- 年份
- 2024(3397)
- 2023(4778)
- 2022(3926)
- 2021(3578)
- 2020(2978)
- 2019(6561)
- 2018(6445)
- 2017(12167)
- 2016(6527)
- 2015(7101)
- 2014(7085)
- 2013(7035)
- 2012(6407)
- 2011(5821)
- 2010(5838)
- 2009(5108)
- 2008(4968)
- 2007(4486)
- 2006(3957)
- 2005(3587)
- 学科
- 济(30255)
- 经济(30232)
- 管理(16603)
- 业(12755)
- 方法(12545)
- 数学(11262)
- 数学方法(10965)
- 地方(10399)
- 企(9726)
- 企业(9726)
- 中国(7921)
- 地方经济(7002)
- 学(6913)
- 制(6864)
- 银(6610)
- 融(6605)
- 金融(6603)
- 银行(6598)
- 行(6379)
- 财(5987)
- 农(5908)
- 和(5205)
- 业经(5107)
- 环境(4813)
- 体(4741)
- 农业(4179)
- 贸(3977)
- 贸易(3973)
- 体制(3899)
- 易(3812)
- 机构
- 大学(91167)
- 学院(89514)
- 济(35598)
- 经济(34709)
- 管理(33474)
- 研究(32150)
- 理学(28327)
- 理学院(27918)
- 管理学(27196)
- 管理学院(27016)
- 中国(26469)
- 科学(21194)
- 京(19898)
- 财(16546)
- 所(16347)
- 中心(15571)
- 研究所(14941)
- 江(13914)
- 农(13481)
- 业大(12952)
- 财经(12946)
- 范(12697)
- 师范(12603)
- 北京(12503)
- 院(12326)
- 经(11801)
- 经济学(11387)
- 州(11298)
- 农业(10629)
- 师范大学(10301)
- 基金
- 项目(63725)
- 科学(50726)
- 基金(46750)
- 研究(45162)
- 家(41664)
- 国家(41388)
- 科学基金(35545)
- 社会(29103)
- 社会科(27819)
- 社会科学(27809)
- 省(24510)
- 基金项目(24096)
- 自然(23066)
- 自然科(22555)
- 自然科学(22550)
- 自然科学基金(22121)
- 划(21291)
- 教育(20141)
- 资助(19363)
- 编号(17975)
- 重点(14737)
- 发(14542)
- 成果(14530)
- 部(13806)
- 国家社会(12797)
- 创(12665)
- 科研(12439)
- 课题(12224)
- 创新(12036)
- 计划(12006)
共检索到139068条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 数据分析与知识发现
[作者]
倪维健 孙浩浩 刘彤 曾庆田
【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出一个无监督的分词结果优化方法。【结果】基于农业领域语料开展实验,结果表明该方法对比ICTCLAS、THULAC和LTP的分词结果 F1值提升2%-3%,并具有实现简单、参数鲁棒性强的特点。【局限】提升召回率方面效果不佳。【结论】基于词频偏差的分词结果优化算法能够有效提升已有分词结果的准确性,
关键词:
领域文献 中文分词 分词优化 词频偏差
[期刊] 中国科学技术大学学报
[作者]
王琳 刘伍颖
多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来语多词组抽取;然后将文档级的自然类别标注迁移到多词组级类别聚类;最后过滤掉通用多词组,萃取多个领域多词组数据集.在272 783马来语文本文档数据集上的实验结果表明,提出的算法不但能够精准地抽取多词组,而且能够高效地实现多词组领域词典聚类.
[期刊] 情报理论与实践
[作者]
王玮 刘丹
详细分析了目前汉语文献自动分词存在的问题,即词法的复杂性、切分的模糊性和语法分析问题。然后提出了汉语文献自动分词的发展趋向。
关键词:
汉语文献,自动分词,文献标引
[期刊] 情报理论与实践
[作者]
杨建林 张国梁
An algorithm for automatic segmentation of Chinese word,which is an improved version of the minimum matching algorithm,is put forward.The key idea of the algorithm is to optimize the word bank and the matching process to enhance the speed and accuracy of word segmentation.By integrating the case ban...
[期刊] 情报理论与实践
[作者]
颜端武 李兰彬 曲美娟
文章提出一种基于N-gram复合分词的领域概念自动获取方法,在中文分词的基础上进行N元复合切分,通过建立一系列过滤规则,提取候选领域概念;然后以改进的TF-IDF作为衡量领域相关性的统计特征值,计算候选概念的领域相关性;最后进行人工辅助判断与筛选。以航空发动机领域语料为样本进行了实践探索,实验结果表明该方法能有效抽取专业领域概念,具有较强的实用性。
关键词:
概念 概念抽取 复合分词 领域相关性
[期刊] 情报理论与实践
[作者]
毛立琦 石拓 吴林 马涛
[目的/意义]针对专业领域研究人员难以从大量无监督文本数据中,快速获取领域关键知识,以精准把握专业研究方向和内容。[方法/过程]文章提出一种基于迁移学习领域自适应的文本关键词提取模型。首先通过采集知网中特定领域的文章和关键词,将其作为目标域数据,将待提取关键词的无监督文本作为源域数据,通过最小化二者间的共享相似特征和关键词分类交叉熵,实现关键词提取方法的跨领域迁移,完成对无监督领域文本的关键词提取任务。[结果/结论]对1313篇“人工智能风险”主题的文章进行领域关键词提取,实验表明该领域关键词提取模型相比于BiLSTM-CRF、TF-IDF模型提取效果提升显著,在领域关键知识提取场景中有较强应用价值。
[期刊] 情报理论与实践
[作者]
蒋婷 孙建军
[目的/意义]术语是本体的重要组成部分,术语自动抽取是本体自动构建的基础,文章采用回归的方法对未登录词进行概率(某个数值(组合)对应的候选词集合中术语的概率)预测,获得该词可能为术语的概率。[方法/过程]文章结合语言学和统计方法,通过构建术语库提取术语抽取模板来抽取候选术语,此外,通过引入回归的方法,将术语抽取问题转化为对词语成为术语的概率的预测问题。[结果/结论]提出的方法最后通过实验验证了其有效性。
[期刊] 图书馆论坛
[作者]
刘畅 王东波 胡昊天 张逸勤 李斌
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
[期刊] 清华大学学报(自然科学版)
[作者]
王庆人 王银子 仲红 张以文
作为信息抽取的核心任务,命名实体识别能够从文本中识别不同类型命名实体。得益于深度学习在字词表示、特征提取方面的应用,中文命名实体识别任务取得了丰富研究成果。然而,中文命名实体识别任务依旧面临词汇信息缺乏的挑战,主要表现为:1)词汇边界信息和上下文语义信息未充分利用;2)字和自匹配词汇间语义信息未能有效捕获;3)图注意力网络输出信息中不同交互图信息的重要性未被考虑。该文提出一种面向中文的字词组合序列实体识别方法。采用字词组合序列嵌入结构,实现词汇边界信息以及字符与词汇间语义信息的充分捕捉;采用多图注意力融合架构,实现不同图神经网络提取特征重要性的区分。实验表明,相比已有经典方法,该方法在Weibo、 Resume、 OntoNotes4.0及MSRA四个数据集上的F1明显提升,在中文命名实体识别任务上具有可行性。
[期刊] 数据分析与知识发现
[作者]
张越 王东波 朱丹浩
【目的】在食品安全领域中,建立相关数据库对食品安全的监管和控制都会有很大的帮助,自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法,应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点,对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验,得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出,特征选择时并不是特征越多分词效果越好,会出现特征干扰的情况,在二三字词占46.62%的食品安全突发事件语料中,
[期刊] 情报理论与实践
[作者]
李军莲 王序文 夏光辉 冀玉静
[目的/意义]针对英文文献主题自动标引任务中通用概念过度标引的问题,拟基于STKOS超级科技词表构建适用于理、工、农、医多个领域的英文通用概念表,用于有效过滤通用概念,降低标引噪音,提高文献主题自动标引的质量。[方法/过程]设计多维特征概念通用度计算算法,通过计算概念通用度自动遴选STKOS超级科技词表中的候选通用概念,结合专家审核,构建具有较好适用性的英文通用概念表。[结果/结论]初步建成的通用概念表概念总量2782个(含某一领域通用与多领域通用),其中典型通用概念366个,能较好体现概念通用性的强弱程
关键词:
通用概念 主题标引 自动标引 词表编制
[期刊] 中国图书馆学报
[作者]
张智雄 赵旸 刘欢
文献分类是图书馆学情报学领域的一个传统研究问题。实用化的中图法自动分类系统最重要的一个要求就是能够将文献精确地自动分类到三级或四级类目之下,这意味着需要将特定文献较为精确地自动分类到上千个类目之下。为了构建面向实际应用的科技文献中图法自动分类引擎,本文基于层次分类思想,设计和实现了一个基于多层分类器集群的科技文献自动分类引擎系统,并重点解决了科技文献自动分类引擎建设中的四个关键问题:①如何获取并构建大规模高质量分类训练数据以提升自动分类效果;②如何设计和实现多层分类器集群以有效解决上千个类目自动分类的准确性;③如何面向现实要求来优化处理流程以提升分类速度;④如何设计和开放接口以支撑引擎的开放调用。最终构建了科技文献自动分类引擎,各项指标达到了实用化要求,初步实现了基于中图法的自动分类系统的实际应用。图4。表7。参考文献16。
[期刊] 情报学报
[作者]
林春实 方燕 全吉成
本文将汉语自动分词与标引技术的研究归结为机械分词、语义分词和基于神经网络的智能分词三大系列,分析了阻碍汉语自动分词研究发展的问题,并确认了自动分词研究的发展方向。
关键词:
自动分词,自动标引
[期刊] 图书情报工作
[作者]
薛春香 张玉芳
在对文本分类及中文新闻分类概述的基础上,归纳出网络新闻文本特征及当前新闻文本分类特点,并总结新闻文本分类在新闻网站分类导航、话题识别与跟踪、个性化推荐三方面的应用。其后,总结中文新闻分类存在的问题,诸如缺乏通用语料和评价方法、分类体系粗略、分类维度单一等,并提出相应措施。最后,针对当前信息环境,提出新闻分类不仅将朝着多层次、多维度、跨语言方向发展,还将与多媒体信息、大数据、社会化媒体相结合。
[期刊] 清华大学学报(自然科学版)
[作者]
张婧 黄德根 黄锴宇 刘壮 孟祥主
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,以确保所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax这3种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除使用当前字的上下文作为特征外,还利用字向量自动计算当前
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除