- 年份
- 2024(5266)
- 2023(7415)
- 2022(6363)
- 2021(5951)
- 2020(5072)
- 2019(11662)
- 2018(11438)
- 2017(22269)
- 2016(11519)
- 2015(12701)
- 2014(12248)
- 2013(11638)
- 2012(10250)
- 2011(8861)
- 2010(8321)
- 2009(7073)
- 2008(6464)
- 2007(5088)
- 2006(3927)
- 2005(2887)
- 学科
- 济(47211)
- 经济(47169)
- 管理(33988)
- 业(31435)
- 方法(28074)
- 企(26607)
- 企业(26607)
- 数学(25518)
- 数学方法(25091)
- 财(12672)
- 农(10457)
- 中国(10009)
- 业经(9512)
- 务(8576)
- 财务(8542)
- 财务管理(8523)
- 企业财务(8119)
- 学(7833)
- 贸(7758)
- 贸易(7756)
- 易(7595)
- 技术(7493)
- 和(7119)
- 农业(7079)
- 环境(7075)
- 地方(6924)
- 理论(6663)
- 制(6192)
- 划(6188)
- 产业(5626)
- 机构
- 大学(150410)
- 学院(149457)
- 管理(65597)
- 济(63338)
- 经济(62315)
- 理学(58410)
- 理学院(57902)
- 管理学(56814)
- 管理学院(56534)
- 研究(42146)
- 中国(31871)
- 京(29474)
- 财(27511)
- 科学(25179)
- 财经(23585)
- 中心(21964)
- 业大(21894)
- 经(21810)
- 经济学(20359)
- 农(19607)
- 江(19187)
- 经济学院(18695)
- 财经大学(18092)
- 所(17980)
- 经济管理(17431)
- 范(17413)
- 北京(17277)
- 师范(17240)
- 商学(17027)
- 商学院(16863)
- 基金
- 项目(115468)
- 科学(93478)
- 基金(87725)
- 研究(83557)
- 家(76036)
- 国家(75482)
- 科学基金(67342)
- 社会(55532)
- 社会科(52990)
- 社会科学(52978)
- 基金项目(46556)
- 自然(44392)
- 省(43502)
- 自然科(43301)
- 自然科学(43287)
- 自然科学基金(42486)
- 教育(38660)
- 划(36985)
- 资助(35674)
- 编号(33017)
- 部(26172)
- 重点(25569)
- 创(24657)
- 成果(24492)
- 国家社会(24332)
- 发(23741)
- 教育部(23167)
- 创新(23084)
- 科研(23049)
- 人文(22856)
共检索到192223条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 统计与决策
[作者]
孟东霞 魏晓光 柳凌燕
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。
关键词:
不平衡数据集 欠采样 自然最近邻
[期刊] 统计与决策
[作者]
孟东霞 李玉鑑
针对实际应用中不平衡数据集分类效果较差的问题,文章提出一种基于特征边界信息进行欠采样的数据处理方法。所提方法根据特征边界点的定义获得多数类样本中可构造特征边界的数据点,其分布在最优非线性分类决策面附近,通常包含重要的分类信息,在欠采样时应进行保留,其他多数类样本远离分类决策面,在分类中易于识别,可在聚类后选取部分样本和少数类样本构成平衡数据集。该方法保留了多数类样本的几何分布特征,降低了样本的信息流失率。对比实验利用支持向量机进行分类,实验结果表明该方法有利于提高不平衡数据中少数类的分类精度,验证了算法的有效性。
关键词:
平衡数据集 欠采样 特征边界 聚类
[期刊] 统计与决策
[作者]
孟东霞 谢林燕
针对不平衡数据集在实际应用中分类效果较差的问题,文章提出一种基于k近邻中心偏移因子对多数类样本欠采样的数据处理方法。k近邻中心是样本的k个最近邻覆盖区域的中心点,所在位置随着k值的增加而发生偏移,偏移变化的波动程度用中心偏移因子来表示。中心偏移因子的值反映了样本周围的局部密度,数值较小的因子代表样本及其近邻处于密集区域,或近邻在样本的同一侧密集分布,样本可能为冗余样本。为了在不改变原始数据分布的前提下尽可能地删除冗余度较高的多数类样本,首先,移除多数类样本中的噪声点,计算多数类样本的中心偏移因子;然后,将多数类样本按照偏移因子的数值从低到高排序;最后,通过比较样本与k近邻的中心偏移因子来删除部分多数类样本,使数据集趋于平衡。实验使用支持向量机对多种欠采样方法平衡后的14个数据集进行了分类,实验结果表明,所提方法在大多数数据集上表现较优,有效提高了少数类的分类精度。
[期刊] 统计与决策
[作者]
王泳欣 张大斌 车大庆 吕建秋
文章针对传统SMOTE及BSMOTE过采样方法会导致多数类样本识别率下降的问题,提出基于局部密度的改进BSMOTE算法(LDBSMOTE)。首先,根据样本分布特点计算局部密度值并筛选根样本,最大限度地保证具有潜在价值的样本不会被丢失,然后通过SMOTE合成样本,最后利用集成学习算法进行分类。为了验证LDBSMOTE的有效性对15个公共数据集进行实验,结果表明,相比SMOTE和BSMOTE,LDBSMOTE算法在F1、G-mean及AUC上平均提升了2.25%,且平均得分均为最高,能在保证多数类样本识别率的基础上提升少数类样本的识别率,有效提升分类性能。
[期刊] 统计研究
[作者]
聂斌 胡雪 王曦
空气质量数据具有在时间上连续、空间上相关的特点,这提高了异常点识别的难度。本文提出在时间维度上运用移动平均法,在空间维度上运用反距离加权法对观测值进行预测并求残差的解决思路,从而将时空数据的异常点识别问题转化为二维残差值的异常点检测问题。通过仿真验证表明新方法具有良好的检出力。最后将新方法应用于北京市实际观测数据,取得了满意的识别效果。
关键词:
空气质量 时空数据 异常点识别 最近邻
[期刊] 统计研究
[作者]
聂斌 胡雪 王曦
空气质量数据具有在时间上连续、空间上相关的特点,这提高了异常点识别的难度。本文提出在时间维度上运用移动平均法,在空间维度上运用反距离加权法对观测值进行预测并求残差的解决思路,从而将时空数据的异常点识别问题转化为二维残差值的异常点检测问题。通过仿真验证表明新方法具有良好的检出力。最后将新方法应用于北京市实际观测数据,取得了满意的识别效果。
关键词:
空气质量 时空数据 异常点识别 最近邻
[期刊] 统计与决策
[作者]
张智驹
大多数不平衡数据过抽样方法依赖于太多参数,容易生成噪声并难以处理流形数据集。为此,文章提出了一种基于密度峰值聚类的不平衡数据过抽样方法(OVMEDPC)。首先,OVMEDPC用密度峰值聚类(DPC)来发现不平衡数据的空间结构;其次,OVMEDPC设计了一种基于密度峰值聚类的噪声过滤方法来移除噪声;最后,OVMEDPC设计了一种基于密度峰值聚类的插值技术来生成少数类的合成样本。实验证明,就随机森林分类器而言,OVMEDPC在F-measure和G-mean上优于5个先进的过抽样方法。
[期刊] 统计与决策
[作者]
宋捷
不平衡数据的分类问题一直都是分类中面临的问题。几乎所有的分类方法直接运用到不平衡数据上都会带来比较大的少数类数据的错判率。为了解决这一问题学者们提出了很多方法,文章就一些主要分类方法和评价标准作一个综述,为这一问题的解决提供一些参考。
关键词:
不平衡数据 分类 综述
[期刊] 统计与决策
[作者]
韩冰 陈华友 陶志富 刘兮
现有的语言术语集在刻画决策信息时可能会导致信息的损失,文章针对属性值是概率不平衡语言且属性权重和时序权重未知的决策问题,构建了动态多属性决策模型。首先定义概率不平衡语言术语集,构建基于灰关联偏离度最小的线性规划模型,确定最优属性权重,得到单个时段的灰关联投影值;其次,考虑不同时段评价信息对最终决策的不同影响,建立指数衰减模型确定时序权重,获得综合投影值,并以此选出最佳方案。最后通过实例说明了该模型的实用性和有效性。
[期刊] 统计与决策
[作者]
宋捷 吕晓玲 吴喜之
Boosting算法是一类串行的集成算法,可用于分类和回归。不同的算法由不同的损失与不同的集成方式构成。文章提出了一种自适应地处理分类中的不平衡数据的Boosting算法Baboost。实验证明该算法能有效地减小各个类内部的预测误差。
[期刊] 工业工程与管理
[作者]
闫伟 何桢 田文萌 何曙光
为了在高维不平衡质量特性数据集中提高关键质量特征识别效率,将EM(ExpectationMaximization)算法引入,通过逐步缩小比例较大数据集内的样本数量来抵消数据不平衡带来的负面影响。算例表明,该方法具有一定的合理性和可行性。
关键词:
复杂产品 聚类 高维 不平衡数据
[期刊] 统计与决策
[作者]
刘洋
在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。
关键词:
不平衡数据集 机器学习 欠抽样 重复抽样
[期刊] 工业技术经济
[作者]
刁凤琴 诸克军 贺勇
石油产量的精确预测,是石油企业制定合理的生产计划、避免盲目投资、实现可持续开发的重要条件。论文提出了基于最近邻径向基——马尔可夫理论的石油产量预测模型,将该模型应用于江汉油田作实证分析,并与传统的灰色模型预测结果作对比分析,得到令人满意的产量预测效果。
[期刊] 统计与决策
[作者]
王娟 熊巍
网络和电子商务的发展,促进了推荐系统的应用。最近邻推荐算法有很直观的解释而在推荐系统中发挥着巨大作用。随着海量数据的可获得性,传统的推荐算法在推荐系统中表现不佳。矩阵分解作为一种新的推荐算法极大地提高了稀疏评分矩阵的推荐质量。文章将矩阵分解的结果应用于基于用户的最近邻推荐系统,其优势在于充分考虑了用户与项目及用户之间的联系。将该方法应用于书籍评分数据,提高了预测精度且能对结果作出很好的解释。
关键词:
推荐系统 矩阵分解 个性化推荐 稀疏矩阵
[期刊] 中央财经大学学报
[作者]
江庆
本文对纵向财政不平衡的传统理论与新近发展进行了回顾,并根据纵向财政不平衡的传统定义和汉特(Hunter)的测量方法,构建了三个纵向财政不平衡系数,并对1994-2003年我国中央与地方财政纵向不平衡度进行测量,结果均显示分税制后我国纵向财政不平衡度呈现扩大趋势。
关键词:
纵向财政不平衡 分税制 汉特测量法
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除