- 年份
- 2024(4433)
- 2023(6310)
- 2022(5161)
- 2021(4624)
- 2020(3865)
- 2019(8506)
- 2018(8295)
- 2017(15506)
- 2016(8067)
- 2015(9079)
- 2014(9208)
- 2013(8514)
- 2012(7690)
- 2011(6915)
- 2010(7277)
- 2009(7121)
- 2008(5907)
- 2007(5450)
- 2006(4927)
- 2005(4550)
- 学科
- 济(26872)
- 经济(26837)
- 融(24861)
- 金融(24854)
- 银(22208)
- 银行(22193)
- 管理(21684)
- 行(21623)
- 业(20826)
- 企(17671)
- 企业(17671)
- 中国(16634)
- 制(11688)
- 中国金融(10931)
- 财(10347)
- 地方(9219)
- 方法(8895)
- 农(8465)
- 体(8386)
- 业经(7758)
- 数学(7662)
- 数学方法(7535)
- 务(7247)
- 财务(7216)
- 财务管理(7203)
- 企业财务(6900)
- 理论(6866)
- 贸(6286)
- 贸易(6278)
- 易(6166)
- 机构
- 学院(107051)
- 大学(104533)
- 济(41332)
- 经济(40187)
- 管理(37062)
- 研究(36849)
- 中国(35952)
- 理学(30782)
- 理学院(30454)
- 管理学(29789)
- 管理学院(29606)
- 京(22303)
- 财(22160)
- 科学(22116)
- 中心(19751)
- 农(19571)
- 所(18551)
- 江(17111)
- 财经(16859)
- 研究所(16771)
- 银(16613)
- 银行(16052)
- 业大(15520)
- 融(15343)
- 农业(15328)
- 经(15173)
- 行(15077)
- 金融(15037)
- 州(14585)
- 北京(14046)
- 基金
- 项目(70125)
- 科学(53975)
- 研究(52658)
- 基金(48758)
- 家(42600)
- 国家(42200)
- 科学基金(35693)
- 社会(32121)
- 社会科(30514)
- 社会科学(30507)
- 省(29419)
- 基金项目(25274)
- 划(23893)
- 教育(23791)
- 编号(22206)
- 自然(21929)
- 自然科(21455)
- 自然科学(21448)
- 自然科学基金(21039)
- 资助(20062)
- 成果(18727)
- 重点(16169)
- 课题(16128)
- 发(15971)
- 创(15285)
- 部(14314)
- 创新(14307)
- 项目编号(14079)
- 性(13607)
- 年(13387)
共检索到175295条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 情报理论与实践
[作者]
张军亮 方雪梅 雒曼 孙晶晶
中文电子病历中存在大量非结构化的文本信息,其中的医学命名实体识别是生物医学领域知识组织和服务的基础。文章首先分析了中文电子病历特征的词语、词性、语素和词的组成等语法特征,以及HowNet语义特征;然后,运用CRF模型,提出了基于CRF医学命名实体的识别方案;最后,实验表明融合HowNet的中文电子病历命名实体识别方法具有较好的效果。
[期刊] 图书情报工作
[作者]
王若佳 赵常煜 王继民
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。
[期刊] 情报学报
[作者]
林泽斐 欧石燕
命名实体链接是利用知识库进行命名实体消歧,将文本中的实体指称映射至知识库中正确义项的一种方法。现有的命名实体链接研究与实践多利用维基百科实现西文实体的消歧,缺乏对中文命名实体消歧的研究。本文以百度百科作为基础知识库,提出了一种中文命名实体链接方法,该方法融合了单实体消歧和多实体消歧特征,并根据不同文本长度选用不同的特征组合,同时,在传统一阶段式消歧的基础上添加了第二阶段消歧以改善消歧结果。在真实中文语料上的实验表明,多特征叠加和两段式消歧可较大程度地提升消歧准确率。对比实验显示,本文提出的命名实体链接方法的总体性能优于当前主流同类系统的水平。
[期刊] 华中师范大学学报(自然科学版)
[作者]
朱颢东 杨立志 丁温雪 冯嘉美
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields,CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.
关键词:
命名实体 中文微博 主题标签 条件随机场
[期刊] 图书情报知识
[作者]
陆伟 鞠源 张晓娟 吴丹
随着互联网经济的飞速发展,信息抽取领域的产品命名实体识别在商务智能领域有着广泛的应用。本文采用条件随机场(CRF)模型,选取词汇、词法和词形上一系列的特征进行训练,通过交叉验证对识别效果进行评价,并通过识别效果指导特征的选取。实验中比较了两种标注方式(BRAND/TYPE和PROD),并取得了令人满意的识别效果。在与最大熵模型对比中,验证了CRF模型对于产品实体识别的优越性。
[期刊] 情报学报
[作者]
刘晓娟 刘群 余梦霞
命名实体识别是自然语言处理的基础性任务,其结果具有广泛的应用。关联数据由于具有丰富的语义知识,能够对现有命名实体识别进一步完善。本文实现了一个基于关联数据的可配置的中英文命名实体识别系统,在识别过程中对实体进行消歧并对识别结果进行扩展,为命名实体识别的进一步完善提供了新的思路。具体包括:基于DBpedia构造了跨领域的中英文命名实体词典;设计了一个基于Hive的分布式管理数据存储模型,基于该模型实现了对DBpedia数据集的组织、存储以及扩展;设计了一个基于图的命名实体识别算法,该算法能够充分利用关联数据的语义关系对命名实体进行消歧,并且基于DBpedia Spotlight NER Corpus对算法进行测试,并将算法结果与DBpedia Spotlight、NERSO以及Zwmanta三个系统进行对比评价,结果表明本文实现的算法在查全率、查准率、F值上具有更好的表现。
关键词:
命名实体识别 命名实体消歧 关联数据
[期刊] 清华大学学报(自然科学版)
[作者]
李明扬 孔芳
相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使用外部知识或者借助联合训练来提升最终的识别性能,但对社交媒体文本不规范导致的对文本自身蕴含特征的挖掘不够这一问题的研究很少。该文着眼于文本自身,提出了一种结合双向长短时记忆和自注意力机制的命名实体识别方法。该方法通过在多个不同子空间捕获上下文相关信息来更好地理解和表示句子结构,充分挖掘文本自身蕴含的特征,并最终提升不规范文本的实体识别性能。在Weibo NER公开语料上进行了多组对比实验,实验结果验证了方法的有效性。结果表明:在不使用外部资源和联合训练的情况下,命名实体识别的F1值达到了58.76%。
关键词:
命名实体识别 中文社交媒体 自注意力机制
[期刊] 图书情报工作
[作者]
孙安 于英香 罗永刚 王祺
[目的 /意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F_1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法 /过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果 /结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F_1值平均提升了0. 23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。
[期刊] 清华大学学报(自然科学版)
[作者]
尹学振 赵慧 赵俊保 姚婉薇 黄泽林
互联网公开数据蕴含着大量高价值的军事情报,成为获取开源军事情报的重要数据源之一。军事领域命名实体识别是进行军事领域信息提取、问答系统、知识图谱等工作的基础性关键任务。相比较于其他领域的命名实体,军事领域命名实体边界模糊,界定困难;互联网媒体中军事术语表达不规范,随意性的简化表达现象较普遍;现阶段面向军事领域的公开语料鲜见。该文提出一种考虑实体模糊边界的标注策略,结合领域专家知识,构建了基于微博数据的军事语料集MilitaryCorpus;提出一种多神经网络协作的军事领域命名实体识别模型,该模型通过基于Transformer的双向编码器(bidirectional encoder representations from transformers, BERT)的字向量表达层获得字级别的特征,通过双向长短时记忆神经网络(bi-directional long short-term memory, BiLSTM)层抽取上下文特征形成特征矩阵,最后由条件随机场层(conditional random field, CRF)生成最优标签序列。实验结果表明:相较于基于CRF的实体识别模型,应用该文提出的BERT-BiLSTM-CRF模型召回率提高28.48%,F值提高18.65%;相较于基于BiLSTM-CRF的实体识别模型,该文模型召回率提高13.91%,F值提高8.69%;相较于基于CNN (convolutional neural networks)-BiLSTM-CRF的实体识别模型,该文模型召回率提高7.08%,F值提高5.15%。
[期刊] 图书馆论坛
[作者]
王娟 王志红 曹树金
命名实体分类和识别是自然语言处理中的关键任务,识别效果将会影响许多下游任务的性能。本文基于现有知识图谱,提出了图情领域9大类实体,并构建了适用于图情领域实体识别的LISERNIE模型。通过开展广泛的实验,结果表明,在预训练阶段注入了图情领域知识的LISERNIE模型能有效识别出命名实体,并且在小规模标注数据集上具有明显的性能优势,在应用到后续的开放域关系抽取实验中,其准确率远高于CORE系统,为进一步构建如知识图谱、问答系统、机器阅读等提供数据支撑。
[期刊] 图书馆论坛
[作者]
朱武信 夏翠娟
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。
[期刊] 图书情报知识
[作者]
吴丹 何大庆 陆伟
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。
关键词:
命名实体 跨语言信息检索 识别 翻译
[期刊] 清华大学学报(自然科学版)
[作者]
张天宇 孙媛媛 杜文玉 邢铁军 林鸿飞 杨亮
法律文书命名实体识别是智慧司法的关键任务。现有的序列标注模型仅关注字符信息,导致在法律文书命名实体识别任务中无法获得语义和词语的上下文信息,且无法对实体的边界进行限制。因此,该文提出了一个融合外部信息并对边界限制的司法命名实体识别模型(semantic and boundary enhance named entity recognition, SBENER)。该模型收集了40万条盗窃罪法律文书,首先,预训练模型,将获得的司法盗窃罪词向量作为输入模型的外部信息;其次,设计Adapter,将司法盗窃罪的信息融入字符序列以增强语义特征;最后,使用边界指针网络对实体边界进行限制,解决了序列标注模型丢失词语信息及缺少边界限制的问题。该模型在CAILIE 1.0数据集和LegalC orpus数据集上进行实验,结果表明, SBENER模型在2个数据集上的F1值(F1-score)分别达88.70%和87.67%,比其他基线模型取得了更好的效果。SBENER模型能够提升司法领域命名实体识别的效果。
[期刊] 实验技术与管理
[作者]
蔡伊娜 包先雨 林燕奎 彭锦学 彭智彬 林泳奇 李俊霖 郭云
针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型。提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点。与已有的BERT-BAC模型相比,在确保较高F_1值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实体识别时间分别缩短60.36%、39.43%,具有更广泛的实用性。
[期刊] 情报理论与实践
[作者]
韩普 陈文祺 顾亮 叶东宇 景慎旗
[目的/意义]医学实体识别是医疗健康知识挖掘和知识组织的关键环节。深入挖掘多模态数据间语义关联可以提升医学实体识别效果,进而为领域知识补全和知识推理提供支撑。[方法/过程]提出一种基于双线性注意力融合机制的多模态中文医学实体识别模型BAF-MNER。首先通过视觉和文本编码器进行多模态医学数据的语义特征学习;接着利用双线性注意力网络实现图像和文本跨模态语义交互,并引入门控机制过滤视觉噪声;然后融合基于注意力机制的视觉特征和文本特征进而构建多模态特征表示,同时增加批量归一化层优化深度神经网络;最后将多模态特征向量输入CRF层解码获取预测标签。[结果/结论]本模型能够有效提升中文医学实体识别效果,在多模态医学数据集上的F1值较单模态基线模型提升4.07%,较多模态基线模型提升1.65%;在多模态公开数据集上的实验表明模型具有良好的泛化能力。
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除