- 年份
- 2024(1595)
- 2023(2075)
- 2022(1858)
- 2021(1650)
- 2020(1475)
- 2019(3397)
- 2018(3442)
- 2017(6610)
- 2016(3544)
- 2015(3759)
- 2014(3527)
- 2013(3261)
- 2012(2943)
- 2011(2550)
- 2010(2432)
- 2009(1992)
- 2008(1946)
- 2007(1685)
- 2006(1371)
- 2005(1139)
- 学科
- 济(14299)
- 经济(14288)
- 管理(8818)
- 方法(8325)
- 业(7892)
- 数学(7733)
- 数学方法(7527)
- 企(6071)
- 企业(6071)
- 财(4119)
- 中国(3647)
- 业经(2839)
- 农(2835)
- 贸(2418)
- 贸易(2416)
- 易(2360)
- 务(2314)
- 财务(2305)
- 财务管理(2303)
- 学(2222)
- 企业财务(2206)
- 产业(2201)
- 地方(2154)
- 信息(2131)
- 制(2091)
- 银(2056)
- 银行(2056)
- 农业(2044)
- 融(2005)
- 金融(2005)
- 机构
- 大学(44697)
- 学院(43082)
- 济(19561)
- 经济(19251)
- 管理(17708)
- 理学(15616)
- 理学院(15491)
- 管理学(15038)
- 管理学院(14972)
- 研究(13493)
- 中国(10848)
- 京(9140)
- 财(9053)
- 科学(7815)
- 财经(7516)
- 中心(7113)
- 经(6991)
- 经济学(6841)
- 经济学院(6327)
- 所(6146)
- 业大(5720)
- 财经大学(5678)
- 农(5676)
- 江(5673)
- 研究所(5668)
- 北京(5501)
- 范(5192)
- 师范(5159)
- 院(4888)
- 经济管理(4730)
- 基金
- 项目(32393)
- 科学(26234)
- 基金(25181)
- 研究(23287)
- 家(21867)
- 国家(21716)
- 科学基金(19090)
- 社会(15917)
- 社会科(15263)
- 社会科学(15261)
- 基金项目(12705)
- 自然(12071)
- 自然科(11841)
- 自然科学(11841)
- 自然科学基金(11589)
- 省(11569)
- 资助(10740)
- 教育(10610)
- 划(9902)
- 编号(9106)
- 成果(7559)
- 部(7431)
- 国家社会(7330)
- 重点(7302)
- 教育部(6646)
- 发(6605)
- 创(6516)
- 科研(6454)
- 人文(6448)
- 大学(6163)
共检索到60335条记录
发布时间倒序
- 发布时间倒序
- 相关度优先
文献计量分析
- 结果分析(前20)
- 结果分析(前50)
- 结果分析(前100)
- 结果分析(前200)
- 结果分析(前500)
[期刊] 统计研究
[作者]
薛薇
非平衡数据集的不均衡学习特点通常表现为负类的分类效果不理想。改进SMOTE再抽样算法,将过抽样和欠抽样方式有机结合,有针对性地选择近邻并采用不同策略合成样本。实验表明,分类器在经此算法处理后的非平衡数据集的正负两类上,均可获得较理想的分类效果。
关键词:
SMOTE算法 再抽样 非平衡数据集
[期刊] 调研世界
[作者]
王蕾 刘赛可 夏利宇
本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,过抽样和欠抽样的比例越高,预测效果越好,但是在某些情况下,直接使用原始数据进行建模,选取一个合适的临界值,可以得到更理想的分类模型。通过对某担保公司的数据实证研究发现,前述结论基本成立,且当原始数据极不平衡时,采用混合抽样方法进行数据预处理可以有效提高模型的预测效果,这对于非平衡数据的建模分析过程有一定的指导意义。
[期刊] 调研世界
[作者]
郝一炜 刘晓宇 金勇进
文章针对抽样调查中目标变量具有空间相关性的问题,提出了一种考虑到总体单元空间信息的空间双重平衡抽样设计方案。其思路是在抽样设计阶段同时利用与总体目标变量高度相关的辅助信息和总体单元的空间位置信息,获取在空间中均匀覆盖的平衡样本,提升样本代表性。通过对北京市医疗资源调查的案例研究发现,相比传统平衡抽样方法,空间双重平衡抽样下的HT估计量具有更小的相对误差,该种方法在政府调查和商业调查等领域有较为广阔的应用前景。
[期刊] 统计与决策
[作者]
张智驹
大多数不平衡数据过抽样方法依赖于太多参数,容易生成噪声并难以处理流形数据集。为此,文章提出了一种基于密度峰值聚类的不平衡数据过抽样方法(OVMEDPC)。首先,OVMEDPC用密度峰值聚类(DPC)来发现不平衡数据的空间结构;其次,OVMEDPC设计了一种基于密度峰值聚类的噪声过滤方法来移除噪声;最后,OVMEDPC设计了一种基于密度峰值聚类的插值技术来生成少数类的合成样本。实验证明,就随机森林分类器而言,OVMEDPC在F-measure和G-mean上优于5个先进的过抽样方法。
[期刊] 统计研究
[作者]
谢佳斌 金勇进 谢邦昌
在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题。本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现"事后"自加权设计。实现"事后"自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现max(n,5%N)是一个比较合适的样本量。这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。
[期刊] 统计与决策
[作者]
王星
本文提出Apriori和ASAR相结合的算法APASAR,给出该算法的理论停止时间的结果和证明,然后通过模拟实验比较APASAR,ASAR和BSAR三种不同算法的运行效率。
关键词:
关联规则 数据挖掘 序贯抽样
[期刊] 统计与决策
[作者]
赵晶英 卢润德
一、工作抽样原理工作抽样是根据数理统计的理论,以概率法则作为基础的方法,从母集团(总体)中随机地取样本,如果这个样本足够大,则从样本的性质可以推断出母集团(总体)的状态。由于它不是全数调查,所以就会产生误差,这又取决于抽样的数量(即观测次数)。抽样数越多可靠性就越高;反之,可靠性就越低。但是抽样次数多,人力、物力、财力的消耗将增加。因此就必须考虑可靠度与精度的问题。
[期刊] 统计研究
[作者]
王国明 宋雪清
A method of mufti-subjects sample design has been advanced and two related theorem demonstrated.
[期刊] 数理统计与管理
[作者]
杨雪 高泽鑫 孟杰 杨贵军
为获取在距离空间中均匀覆盖的平衡样本,传统空间平衡抽样方法利用总体单元间的欧式距离设计抽样算法,并未考虑总体单元在不同方向上的变异。针对存在各向异性的目标总体,本文提出了改进的局部枢轴法,其基本思想是借助与目标变量高度相关的辅助变量测度总体单元间各向异性程度,使各向异性较小的单元倾向于不同时进入样本,提高了样本的代表性。数值模拟与实证研究结果表明,新方法下的Horvitz-Thompson估计量具有更小的相对误差,统计性质优良,该方法在自然科学与社会经济调查领域有较为广阔的应用前景。
[期刊] 统计研究
[作者]
罗幼喜 李翰芳 田茂再
文章讨论了含有随机效应的面板数据模型,利用非对称Laplace分布与分位回归之间的关系,文章建立了一种贝叶斯分层分位回归模型。通过对非对称Laplace分布的分解,文章给出了Gibbs抽样算法下模型参数的点估计及区间估计,模拟结果显示,在处理含随机效应的面板数据模型中,特别是在误差非正态的情况下,本文的方法优于传统的均值模型方法。文章最后利用新方法对我国各地区经济与就业面板数据进行了实证研究,得到了有利于宏观调控的有用信息。
[期刊] 数理统计与管理
[作者]
李莉莉 周楷贺 杜梅慧
针对海量数据,子抽样算法是当前一种流行的简化计算和降低计算成本的方法。现阶段的研究主要集中于单目标变量的估计上。多目标抽样也是现实生活中经常遇到的问题。本文提出基于广义线性模型,多目标抽样的均值两步子抽样算法。两步子抽样算法是Wang等(2018)~([1])提出的基于L-最优和A-最优的思想,确定每个抽样单元的入样概率。本文在此基础上,定义多目标抽样的各单元的入样概率,并推导模型参数估计量的渐近性质,最后用模拟数据和实际例子对均值两步子抽样算法和多目标两步子抽样方法进行比较。结果表明,在样本量相同时,A-最优准则下均值两步子抽样算法在估计精度上优于基于两步子抽样算法的MPPS抽样和L-最优准则下均值多目标两步子抽样算法。在计算效率上也较全样本估计有显著的提高,节约了计算时间。
关键词:
大数据 两步子抽样算法 广义线性模型
[期刊] 统计与决策
[作者]
王丙参 魏艳华 孙永辉
文章比较研究了舍选法和重要性重抽样(SIR)算法生成随机数的理论基础,给出了二者的区别与联系,特别讨论了压挤舍选抽样和自适应舍选抽样,并给出了包络函数和重要性抽样函数的选择标准,探讨二者对随机数生成速度和质量的影响。
关键词:
舍选法 重要性重抽样 接受概率 包络函数
[期刊] 统计研究
[作者]
秦磊 熊巍 田茂再
大数据以其巨大的样本容量或超高的变量维度使得直接计算变得不再可能,如何有效地抽取一个合适的计算样本是值得思考的问题。本文借鉴Leverage重要性抽样的思想,提出了两种稳健的改进抽样算法,不仅有效地抽取了代表性高的计算样本进行回归估计,还规避了方差大和异质性导致协方差矩阵估计不准的问题。模拟数据的分析显示,相比于Ma(2015)的方法,本文提出的方法具有更为优良的估计结果。
[期刊] 统计研究
[作者]
金勇进 刘展
利用大数据进行抽样,很多情况下由于抽样框的构造比较困难,使得抽取的样本属于非概率样本,传统的抽样推断理论难以应用到非概率样本中,如何解决非概率抽样的统计推断问题,是大数据背景下抽样调查面临的严重挑战。本文提出了解决非概率抽样统计推断问题的基本思路:一是抽样方法,可以考虑基于样本匹配的样本选择、链接跟踪抽样方法等,使得到的非概率样本近似于概率样本,从而可采用概率样本的统计推断理论;二是权数的构造与调整,可以考虑基于伪设计、模型和倾向得分等方法得到类似于概率样本的基础权数;三是估计,可以考虑基于伪设计、模型和贝叶斯的混合概率估计。最后,本文以基于样本匹配的样本选择为例探讨了具体解决方法。
关键词:
大数据 非概率抽样 统计推断
[期刊] 统计与决策
[作者]
杨丰凯 袁海静
文章讨论了线性回归模型中回归系数变点位置估计的非迭代抽样算法。在贝叶斯框架下,分别采取无信息先验和共轭先验,利用逆贝叶斯公式,得到来自变点位置后验分布的独立同分布的样本,可直接用于变点位置的统计推断。避免了Gibbs抽样算法中的收敛性诊断问题以及样本的相依性问题。
文献操作()
导出元数据
文献计量分析
导出文件格式:WXtxt
删除