- 年份
- 2024(4870)
- 2023(7035)
- 2022(6087)
- 2021(5762)
- 2020(4944)
- 2019(11385)
- 2018(11294)
- 2017(21692)
- 2016(11396)
- 2015(12717)
- 2014(12274)
- 2013(11741)
- 2012(10332)
- 2011(8839)
- 2010(8252)
- 2009(7054)
- 2008(6279)
- 2007(4946)
- 2006(3724)
- 2005(2756)
- 学科
- 济(43872)
- 经济(43831)
- 管理(32218)
- 业(31421)
- 企(27008)
- 企业(27008)
- 方法(26710)
- 数学(24250)
- 数学方法(23795)
- 财(11760)
- 农(10013)
- 中国(9294)
- 业经(8609)
- 学(8279)
- 务(8243)
- 财务(8209)
- 财务管理(8190)
- 企业财务(7792)
- 技术(7401)
- 理论(7346)
- 贸(7346)
- 贸易(7342)
- 易(7188)
- 农业(6726)
- 和(6606)
- 地方(6527)
- 环境(6419)
- 划(5846)
- 制(5810)
- 教学(5432)
- 机构
- 大学(147286)
- 学院(145738)
- 管理(62656)
- 济(59824)
- 经济(58811)
- 理学(56049)
- 理学院(55501)
- 管理学(54381)
- 管理学院(54109)
- 研究(41252)
- 中国(30369)
- 京(28607)
- 财(25740)
- 科学(25242)
- 财经(22044)
- 业大(21971)
- 中心(21256)
- 经(20379)
- 农(20231)
- 江(19165)
- 经济学(19067)
- 范(18529)
- 师范(18311)
- 所(17884)
- 经济学院(17479)
- 财经大学(16929)
- 经济管理(16746)
- 研究所(16741)
- 北京(16665)
- 商学(16312)
- 基金
- 项目(112519)
- 科学(90976)
- 基金(84900)
- 研究(81427)
- 家(73647)
- 国家(73100)
- 科学基金(65113)
- 社会(53224)
- 社会科(50669)
- 社会科学(50657)
- 基金项目(45365)
- 自然(43337)
- 省(43252)
- 自然科(42455)
- 自然科学(42441)
- 自然科学基金(41658)
- 教育(39020)
- 划(37068)
- 资助(34393)
- 编号(32293)
- 部(25716)
- 重点(25197)
- 创(24312)
- 成果(23903)
- 发(23361)
- 国家社会(22855)
- 创新(22729)
- 教育部(22715)
- 科研(22608)
- 人文(22238)
共检索到188568条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 清华大学学报(自然科学版)
[作者]
张婧 黄德根 黄锴宇 刘壮 孟祥主
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,以确保所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax这3种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除使用当前字的上下文作为特征外,还利用字向量自动计算当前
[期刊] 情报理论与实践
[作者]
杨建林 张国梁
An algorithm for automatic segmentation of Chinese word,which is an improved version of the minimum matching algorithm,is put forward.The key idea of the algorithm is to optimize the word bank and the matching process to enhance the speed and accuracy of word segmentation.By integrating the case ban...
[期刊] 数理统计与管理
[作者]
凤丽洲 杨贵军 徐雪 徐玉慧
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标P_n,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、P_n和F_1值。
[期刊] 情报学报
[作者]
李家福 张亚非
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。
关键词:
分词 汉语 EM算法 语料库 HMM
[期刊] 数据分析与知识发现
[作者]
倪维健 孙浩浩 刘彤 曾庆田
【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出一个无监督的分词结果优化方法。【结果】基于农业领域语料开展实验,结果表明该方法对比ICTCLAS、THULAC和LTP的分词结果 F1值提升2%-3%,并具有实现简单、参数鲁棒性强的特点。【局限】提升召回率方面效果不佳。【结论】基于词频偏差的分词结果优化算法能够有效提升已有分词结果的准确性,
关键词:
领域文献 中文分词 分词优化 词频偏差
[期刊] 图书情报工作
[作者]
王若佳 赵常煜 王继民
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。
[期刊] 数据分析与知识发现
[作者]
高永兵 杨贵朋 张娣 马占飞
【目的】针对官方微博数据存在大量不相关信息的问题,过滤博文进而检测事件。【方法】利用Word2Vec机器学习模型训练官方微博记录集,并将博文影响力、词基础权重以及官微相关性相结合,提出官方微博突显词检测方法,计算突显词博文的相似度,利用层次聚类算法对突显词博文聚类后选取合适的突显词描述事件,从而实现事件检测。【结果】实验结果表明,与TF-IDF和TextRank算法相比较,本文的突显词算法在准确率(63.5%)、召回率(85.5%)和F值(73.0%)方面表现更好。【局限】官方微博历史记录太少,初始的训练
[期刊] 图书馆杂志
[作者]
蒋南
本文将基于词典的中文分词方法和数据库全文检索技术应用到OPAC资源整合中,实现了以OPAC书目查询系统为中心的异构数据的资源整合,对当前OPAC资源整合提出了一个新的思路,为读者开辟了一条快速、便捷的文献全文获取渠道。该方案在某图书馆进行纸本数据和部分数字资源镜像数据的整合中得以应用。
关键词:
全文检索 电子资源 OPAC 资源整合
[期刊] 金融理论与实践
[作者]
周毓萍 陈官羽
在大数据和互联网技术迅猛发展的背景下,金融大数据平台公司通过自己的平台收集和整理海量数据,完善信用评价维度,运用机器学习方法对个人信用水平进行全面科学评价,因而,商业银行传统个人信用评价面临巨大挑战。从现有个人信用评价体系和方法局限出发,探讨基于机器学习方法的个人信用评价研究的必要性,完善个人信用评价维度和评价体系,明确数据采集的渠道,运用动态脱敏技术进行数据脱敏、LOF检验方法检验数据异常值和随机森林方法补充数据缺失值。接着,运用梯度提升决策树方法筛选重要性指标,通过基于逻辑回归的评分卡模型对筛选后的指标进行处理,输出个人信用评价分。最后,通过BP神经网络对模型进行检验,运用该模型对个人信用水平进行预测。研究表明基于机器学习能够进一步提高个人信用评价的准确性,为商业银行个人信用评价提供科学的依据和参考。
[期刊] 情报理论与实践
[作者]
梁健 王惠临
本文介绍了当前基于文本的本体学习主要方法,在种子概念的基础上,设计了一种基于文本的本体学习方法,同时分析了术语获取、概念分类、关系获取等基于文本的本体学习关键技术。实验表明,借助种子概念能够从纯文本中抽取概念,对概念进行分类,为本体开发提供基础。
关键词:
本体 本体学习 种子概念
[期刊] 数据分析与知识发现
[作者]
祁瑞华
【目的】针对网络文本篇幅短小、传统文体特征集稀疏等特点,探讨依存关系在中文微博作者性别识别中的应用。【方法】选取腾讯公开微博作为实验语料,抽取依存关系特征与现有文献中的词汇特征、结构特征、功能词特征、词性标注特征和微博特征进行对照实验。【结果】采用支持向量机、朴素贝叶斯、最近邻和决策树算法的对照实验验证了本文方法在中文微博作者性别识别任务中的准确率、召回率和F-Measure最高。【局限】依存关系在微博作者性别识别中的有效性还需在大规模语料上进一步验证。【结论】本文模型能够避免短文本特征集的稀疏性,与其他
关键词:
依存关系 中文微博 性别识别
[期刊] 情报理论与实践
[作者]
岑咏华
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想。最后,论文对所研究技术方案进行了系统实现。系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能。
关键词:
哈希词典 算法 中文分词
[期刊] 图书情报知识
[作者]
商宪丽 王学东
本文针对微博文本的简短、动态性等特征,提出一种新的文本特征提取方法,提升微博话题识别任务中文本聚类算法效果。利用词项共现的思想,针对微博时序文本构建动态共词网络。在动态共词网络中,边权重随着时间推移而线性衰减,并在此基础上利用网络的度中心性计算微博文本特征权重。从新浪微博中采样构建实验数据集进行实验,结果表明动态共词网络特征提取方法相较于文档频率方法,更适宜于提取微博文本特征,能取得更好的微博话题识别效果。
[期刊] 情报杂志
[作者]
张雄宝 陆向艳 练凯迪 刘峻 刘正平
[目的/意义]面对海量的微博数据,及时准确地检测出微博突发事件,对于网络舆情检测有着重要的意义。[方法/过程]在对微博突发事件传播规律的研究分析中,发现事件相关微博文档的发布地域覆盖范围会随事件演变,出现从小开始逐渐扩大,再到出现极值,最后逐渐缩小的规律,根据该规律提出一种基于突发词地域分析的微博突发事件检测方法。该方法从突发词的地域属性和情感属性两个维度去识别微博突发事件,首先通过情感计算过滤非负值文档;然后根据特征词的地域扩散程度对剩余文档进行突发词检测;最后使用新突发事件检测方法,对突发词集进行聚类
[期刊] 中国科学技术大学学报
[作者]
万琪 于中华 陈黎 宋磊磊 丁革建
情感表达抽取工作是细粒度情感挖掘的重要任务之一.中文微博中包含大量网络新词和不规范词,现有的方法在进行微博情感表达抽取任务时不能很好地处理上述情况.通过研究发现,微博中新词大量分布在文本的情感表达部分,于是提出了基于CRF的联合抽取模型,即将新词发现融入到情感表达抽取任务中,从而改进原有工作的不足.实验结果表明,新词探测对微博文本情感表达抽取有很好的指示作用,在电影领域和开放领域的微博数据集上分别进行实验,F1值均提高了2%以上.
关键词:
情感分析 新词发现 条件随机场 信息抽取
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除