- 年份
- 2024(5844)
- 2023(8334)
- 2022(7147)
- 2021(6567)
- 2020(5656)
- 2019(12911)
- 2018(12738)
- 2017(24609)
- 2016(12875)
- 2015(14225)
- 2014(13699)
- 2013(13051)
- 2012(11568)
- 2011(9947)
- 2010(9430)
- 2009(8012)
- 2008(7528)
- 2007(6050)
- 2006(4672)
- 2005(3584)
- 学科
- 济(50507)
- 经济(50461)
- 管理(36692)
- 业(34538)
- 企(29326)
- 企业(29326)
- 方法(29262)
- 数学(26379)
- 数学方法(25934)
- 财(14686)
- 农(11484)
- 中国(11013)
- 业经(10329)
- 务(10128)
- 财务(10094)
- 财务管理(10075)
- 学(10032)
- 企业财务(9602)
- 贸(8354)
- 贸易(8352)
- 易(8152)
- 技术(7924)
- 农业(7739)
- 地方(7663)
- 和(7510)
- 环境(7320)
- 理论(7292)
- 制(7082)
- 划(6477)
- 银(6328)
- 机构
- 大学(167414)
- 学院(166850)
- 管理(70561)
- 济(68153)
- 经济(66958)
- 理学(62620)
- 理学院(62021)
- 管理学(60750)
- 管理学院(60448)
- 研究(49851)
- 中国(37823)
- 京(33349)
- 科学(31408)
- 财(30556)
- 财经(25783)
- 中心(25562)
- 业大(25351)
- 农(24269)
- 经(23787)
- 所(22703)
- 江(22429)
- 经济学(21627)
- 研究所(21073)
- 范(20257)
- 师范(20025)
- 经济学院(19837)
- 财经大学(19655)
- 北京(19652)
- 院(19164)
- 农业(19160)
- 基金
- 项目(128185)
- 科学(103304)
- 基金(97068)
- 研究(90931)
- 家(85261)
- 国家(84652)
- 科学基金(74591)
- 社会(59628)
- 社会科(56831)
- 社会科学(56818)
- 基金项目(51713)
- 自然(49882)
- 自然科(48824)
- 自然科学(48814)
- 省(48464)
- 自然科学基金(47908)
- 教育(41949)
- 划(41754)
- 资助(39182)
- 编号(35854)
- 重点(29010)
- 部(28672)
- 创(27183)
- 成果(26789)
- 发(26546)
- 国家社会(26026)
- 科研(25876)
- 创新(25489)
- 教育部(24974)
- 人文(24403)
共检索到218985条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 统计与决策
[作者]
孟东霞 李玉鑑
针对实际应用中不平衡数据集分类效果较差的问题,文章提出一种基于特征边界信息进行欠采样的数据处理方法。所提方法根据特征边界点的定义获得多数类样本中可构造特征边界的数据点,其分布在最优非线性分类决策面附近,通常包含重要的分类信息,在欠采样时应进行保留,其他多数类样本远离分类决策面,在分类中易于识别,可在聚类后选取部分样本和少数类样本构成平衡数据集。该方法保留了多数类样本的几何分布特征,降低了样本的信息流失率。对比实验利用支持向量机进行分类,实验结果表明该方法有利于提高不平衡数据中少数类的分类精度,验证了算法的有效性。
关键词:
平衡数据集 欠采样 特征边界 聚类
[期刊] 统计与决策
[作者]
孟东霞 魏晓光 柳凌燕
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。
关键词:
不平衡数据集 欠采样 自然最近邻
[期刊] 统计与决策
[作者]
宋捷
不平衡数据的分类问题一直都是分类中面临的问题。几乎所有的分类方法直接运用到不平衡数据上都会带来比较大的少数类数据的错判率。为了解决这一问题学者们提出了很多方法,文章就一些主要分类方法和评价标准作一个综述,为这一问题的解决提供一些参考。
关键词:
不平衡数据 分类 综述
[期刊] 统计与决策
[作者]
王泳欣 张大斌 车大庆 吕建秋
文章针对传统SMOTE及BSMOTE过采样方法会导致多数类样本识别率下降的问题,提出基于局部密度的改进BSMOTE算法(LDBSMOTE)。首先,根据样本分布特点计算局部密度值并筛选根样本,最大限度地保证具有潜在价值的样本不会被丢失,然后通过SMOTE合成样本,最后利用集成学习算法进行分类。为了验证LDBSMOTE的有效性对15个公共数据集进行实验,结果表明,相比SMOTE和BSMOTE,LDBSMOTE算法在F1、G-mean及AUC上平均提升了2.25%,且平均得分均为最高,能在保证多数类样本识别率的基础上提升少数类样本的识别率,有效提升分类性能。
[期刊] 数理统计与管理
[作者]
何晓群 夏利宇 姜天英
征信数据中的客户往往呈现"好多坏少"的不平衡结构,这种结构使得一般的分类模型在预测客户信用表现时失效。本文基于零膨胀计数模型的建模思想,分别提出处理因变量为二分类变量、多分类变量、计数变量的零膨胀信用评级模型(ZICSM),将客户结构拆分为稳定好客户、不稳定好客户和坏客户三个部分,利用模型自身优势形成严谨和宽松的两套贷款审批机制。ZICSM模型对目标函数进行权数调整,使模型更加关注"坏"客户,在目标函数中加入惩罚项,使模型具备组变量选择功能。此外,本文提出兼顾风险把控和市场份额的RS得分指标,借以评价信用评级模型的分类效果。模拟研究和实证研究的结果表明,ZICSM模型能够提升金融机构的贷款收益,增加其审批机制的灵活性,适用于处理征信数据的不平衡问题。
[期刊] 统计与决策
[作者]
张智驹
大多数不平衡数据过抽样方法依赖于太多参数,容易生成噪声并难以处理流形数据集。为此,文章提出了一种基于密度峰值聚类的不平衡数据过抽样方法(OVMEDPC)。首先,OVMEDPC用密度峰值聚类(DPC)来发现不平衡数据的空间结构;其次,OVMEDPC设计了一种基于密度峰值聚类的噪声过滤方法来移除噪声;最后,OVMEDPC设计了一种基于密度峰值聚类的插值技术来生成少数类的合成样本。实验证明,就随机森林分类器而言,OVMEDPC在F-measure和G-mean上优于5个先进的过抽样方法。
[期刊] 统计与决策
[作者]
刘金华 杜云晗
文章基于结构基尼系数估计方法,对2000—2022年我国31个省份的城乡收入差距进行测算,并基于核密度曲线和趋势线考察区域时空变化特征。结果表明:东部地区大部分省份的城镇单元和农村单元对全国城乡收入不平衡的贡献趋于下降;中部地区各省份城镇单元和农村单元对全国城乡收入不平衡的贡献先升后降;西部地区各省份城镇单元对全国城乡人均收入不平衡的贡献普遍较低,农村人均收入对全国城乡收入不平衡的贡献先升后降,其结构基尼系数变动趋势与中部地区城乡单元类似,呈现明显的“倒U”型。城乡经济不平衡已得到较大的改善,区域间城乡差距日益缩小。
关键词:
结构基尼系数 城乡收入 经济发展不平衡
[期刊] 统计与决策
[作者]
韩冰 陈华友 陶志富 刘兮
现有的语言术语集在刻画决策信息时可能会导致信息的损失,文章针对属性值是概率不平衡语言且属性权重和时序权重未知的决策问题,构建了动态多属性决策模型。首先定义概率不平衡语言术语集,构建基于灰关联偏离度最小的线性规划模型,确定最优属性权重,得到单个时段的灰关联投影值;其次,考虑不同时段评价信息对最终决策的不同影响,建立指数衰减模型确定时序权重,获得综合投影值,并以此选出最佳方案。最后通过实例说明了该模型的实用性和有效性。
[期刊] 统计与决策
[作者]
宋捷 吕晓玲 吴喜之
Boosting算法是一类串行的集成算法,可用于分类和回归。不同的算法由不同的损失与不同的集成方式构成。文章提出了一种自适应地处理分类中的不平衡数据的Boosting算法Baboost。实验证明该算法能有效地减小各个类内部的预测误差。
[期刊] 工业工程与管理
[作者]
闫伟 何桢 田文萌 何曙光
为了在高维不平衡质量特性数据集中提高关键质量特征识别效率,将EM(ExpectationMaximization)算法引入,通过逐步缩小比例较大数据集内的样本数量来抵消数据不平衡带来的负面影响。算例表明,该方法具有一定的合理性和可行性。
关键词:
复杂产品 聚类 高维 不平衡数据
[期刊] 统计与决策
[作者]
刘洋
在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。
关键词:
不平衡数据集 机器学习 欠抽样 重复抽样
[期刊] 财贸研究
[作者]
徐生霞 刘强 陆小莉
产业结构转型升级的动态变迁既反映了一个区域经济发展的演变,又为新阶段经济发展质量的提升提供了新的思路,因而对区域协调发展有着深远影响。通过聚焦产业结构转型升级与区域发展不平衡所呈现出的非线性、阶梯型、空间辐射异质性等特征,利用1992—2018年中国省域非平衡面板数据,运用半参数、有序Logit响应和空间SARAR面板进行建模,以此对产业结构转型升级变迁中的区域发展不平衡的影响效应进行了分析,同时结合产业结构转型升级效果,从省级层面对中国区域发展不平衡程度进行了等级划分。研究发现:产业结构合理化、高级化对区域发展不平衡的抑制作用呈现出明显的非线性态势;从分类结果看,不同地区的区域发展不平衡程度在不同时期呈现出较强的阶梯型特征;从空间效应看,产业结构转型升级对区域发展不平衡的经济空间辐射作用强于地理区位。此外,虽然技术水平、教育水平和城镇化水平的提升在不同程度上可以缓解区域发展不平衡程度,但产业结构转型升级带动下的经济高质量发展是解决区域发展不平衡问题的关键。
[期刊] 管理评论
[作者]
迟国泰 章彤 张志鹏
准确预测上市公司ST状态,对上市公司自身的管理以及投资者的投资决策极为重要。本文通过Lasso最小二乘回归筛选ST判别能力最强的指标组合,并用SMOTE过采样技术对上市公司数据进行平衡化处理,再通过逻辑回归与BP神经网络的混合模型,基于不同时间窗口的数据对中国上市公司ST状态进行预测。本文创新与特色:一是将BP神经网络和逻辑回归分别得到的公司ST概率与指标数据一同代入BP神经网络模型中预测ST状态,提高了仅用单一判别模型的预测准确率;二是以Lasso最小二乘回归方程的误差最小为目标,寻找对ST状态判别能力最大的一组指标;三是采用SMOTE对上市公司样本进行平衡化处理,解决了非平衡数据下模型判别不准确的问题;四是分别采用了提前2年、3年、4年和5年的数据对公司未来ST状态进行预测,找到了ST预警的最优时间窗口。
[期刊] 管理评论
[作者]
夏利宇 何晓群
由于履约客户的数量远远大于违约客户,征信数据具备严重的不平衡特征,常用的处理方法较少同时考虑金融机构所关注的违约损失和市场份额因素。本文基于违约损失因素提出迭代重抽样集成模型(IRIM),利用迭代欠抽样方法提升模型对"坏"客户的关注,采用集成方法将弱分类模型转变为强分类模型;基于市场份额因素改进常用的F-value指标,引入评价分类效果的RS指标。在6类不平衡关系下进行模拟研究,并对SSBF数据和中国某银行征信数据进行实证研究。结果表明,与常用的方法和指标相比,迭代重抽样集成模型能够在确保市场份额不过度减少的情况下降低金融机构的违约风险,RS指标能够恰当地权衡市场份额和违约风险的关系。
[期刊] 江西财经大学学报
[作者]
肖刚
以旅游总收入为测度指标,采用传统和空间马尔可夫链分析方法,研究了1997—201 5年间中国区域旅游业发展不平衡的演变特征。结果表明:中国区域旅游发展不平衡表现为三大地带内的不平衡显著大于三大地带间的不平衡;区域旅游业发展存在较为稳定的低水平和高水平趋同俱乐部以及显著的空间聚集关联性;区域旅游业发生转移的概率及邻域间的空间溢出效应与邻域间旅游业发展水平紧密相关。
关键词:
区域旅游 不平衡 空间溢出效应
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除