搜索文献-EPS

变量选择一直是建立回归模型中的一个重要问题。文章基于线性模型对lasso、adaptive-lasso、SCAD、elastic net、group lasso和group SCAD等方法进行了较为系统的比较分析,通过进行无分组变量和有分组变量的模拟实验,比较了几种方法之间的优缺点和相关联系。分析了在不同自变量相关系数以及在不同误差项方差的情况下,各种方法的模型误差的变化趋势以及相互之间的差异比较。

关键词：变量选择 lasso adaptive-lasso SCAD elastic net group lasso group SCAD

Cox模型中基于Model-X Knockoffs的高维控制变量选择方法

[期刊] 统计与决策 [作者] 黄河潘莹丽

在生物医学、临床试验和流行病学等领域的研究中，由于获得生存数据的试验设计、观测时间的局限，以及观测对象在进入或退出试验时的个体差异等方面的原因，与所关注事件的发生时间相关的数据经常存在右删失。基于右删失生存数据解析协变量和生存时间的关系时，应用最为广泛的统计模型是Cox模型。随着科学技术的进步，数据收集变得越来越容易，导致数据库规模越来越大、复杂性越来越高，数据的维度通常可以达到成百上千维，甚至更高。文章提出一种Cox模型中基于Model-X Knockoffs的高维控制变量选择方法。首先基于Knockoffs框架建立一个Knockoffs变量，并基于原始协变量和其相应的Knockoffs变量构造一个正则化的目标函数，然后通过求解目标函数的最优解构造一个统计量和基于数据的阈值，最后进行变量选择。模拟分析和实证研究结果表明：所提方法可以在变量选择的同时提供可靠的FDR控制，优于传统的LASSO方法。

关键词： Cox模型 Model-X Knockoffs FDR控制变量选择

高维Extremile回归中变量选择的类弹性网惩罚方法（英文）

[期刊] 中国科学技术大学学报 [作者] 熊亦民郑智张伟平

近几年提出的Extremile回归不仅保留了分位数回归通过设定不同的分位点全面掌握数据信息的优点，而且与分位数回归中和Expectile回归相比也有其独特的优势，特别是在风险保护上的优秀表现。本文提出了一种带惩罚的线性Extremile回归模型用以解决高维数据下的变量选择问题，其中惩罚函数是由和惩罚函数组合得到的类弹性网（QEN）惩罚函数，同时给出了解决相关优化问题的EM算法，以及在较为宽松条件下即能成立相关理论性质。在数值模拟中，我们通过与L_0，L_1，L_2和弹性网惩罚函数的比较，展示了类弹性网惩罚函数。

关键词： Extremile回归类弹性网组效应高维数据变量选择

超高维数据下部分线性可加分位数回归模型的变量选择

[期刊] 统计与决策 [作者] 白永昕钱曼玲田茂再

在超高维数据中,一方面，协变量的维数可能远远大于样本量,甚至随着样本量以指数级的速度增长；另一方面，超高维数据通常是异质的，协变量对条件分布中心的影响可能与他们对尾部的影响大不相同，甚至会出现重尾以及异常点的复杂情况。文章在协变量维度发散且为超高维的情况下研究了部分线性可加分位数回归模型的变量选择和稳健估计问题。首先，为了实现模型的稀疏性和非参数光滑性，引入了一种非凸Atan双惩罚，并采用分位迭代坐标下降算法来解决所提方法的优化问题。在选择适当正则化参数的情况下，证明了所提双惩罚估计量的理论性质。其次，通过模拟研究对所提方法的性能进行验证。模拟结果表明，所提方法比其他惩罚方法具有更好的表现，尤其是在数据存在重尾的情况下。最后，通过基于癌症筛查病人血液样本数据的实证来验证所提方法的实用性。

关键词：超高维数据分位数回归部分线性可加变量选择 Atan双惩罚

基于稀疏聚类的高维数据特征选择及应用

[期刊] 统计与决策 [作者] 张陶陶胡亚南李扬田茂再

文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用。将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标。

关键词：稀疏聚类高维数据聚类特征选择

基于稀疏聚类的高维数据特征选择及应用

[期刊] 统计与决策 [作者] 张陶陶胡亚南李扬田茂再

关键词：稀疏聚类高维数据聚类特征选择

生存分析中时间变量的选择

[期刊] 中国人口科学 [作者] 李强张震

文章对使用生存分析技术分析左截平数据时如何选择时间变量进行了探讨。作者从理论上、逻辑上、似然函数的构造、协变量系数的估计及模型对数据的拟合度方面指出,以真正的历险时间(如年龄)为时间变量是正确的模型表达,而以观测期为时间变量的模型表达是错误的,用中国高龄老人死亡风险的研究例示了这一结论。并指出在特定的情况下,两个模型对协变量的估计比较接近,研究者应该准确把握所研究事件的特点,选择正确的时间变量,从而正确表达风险函数和构建似然函数,准确地估计模型的各个参数。

关键词：生存分析左截平时间变量纵向追踪调查数据等比例风险模型

带有治愈亚组的区间删失数据的变量选择方法研究

[期刊] 数理统计与管理 [作者] 蔡敏方李君李洪喜李树威

带有治愈亚组的区间删失数据常见于周期性随访或检查的医学研究中,此时研究总体中有一部分个体不会发生所感兴趣的事件,而对于每个发生所感兴趣事件的个体,其事件的发生时间落入某一时间区间内而非被精确地观测到。此外,在实际问题中,我们时常会遇到协变量维数较高的情形,而如何进行变量选择以识别出对疾病发生有重要影响的因素十分重要。本文研究带有治愈亚组的区间删失数据的变量选择问题,我们采用最小近似信息准则方法并提出一种惩罚期望极大化算法来同时实现变量选择和参数估计,所提出方法的一个重要优点是在变量选择过程中无须选择最优调节参数。通过数值模拟,我们比较所提出方法与一般的正则化方法如LASSO,ALASSO,以及SCAD在有限样本下的表现。结果表明,所提出方法有很高的变量选择准确率且在计算上比LASSO,ALASSO和SCAD更加快速、高效。最后,我们将所提出方法应用到一组有关于尼日利亚新生儿童死亡率的区间删失数据中。

关键词：失效时间区间删失变量选择 BIC准则非混合治愈率模型

基于异质性数据的Logit变量选择模型研究

[期刊] 统计研究 [作者] 斯介生李扬谢邦昌

在大数据时代,数据的异质性和变量的稀疏性是不可回避的两大问题。本文针对上述问题构建了异质性Logit变量选择模型。研究显示,在不同的异质性条件下,本文的方法可以明显区分有效变量和冗余变量。而且,通过Gmeans等评价指标可知该模型具有很好的预测效果。在对上市公司财务预警分析的应用研究中,本文方法得到了具有解释意义的结果,说明该方法具有一定的实证价值。

关键词：异质性变量选择财务预警

带有治愈亚组的区间删失数据的变量选择方法研究

[期刊] 数理统计与管理 [作者] 蔡敏方李君李洪喜李树威

关键词：失效时间区间删失变量选择 BIC准则非混合治愈率模型

基于信息增益率的超高维变量选择

[期刊] 统计与决策 [作者] 朱燚丹陈兴荣李秋萍

文章针对信息增益变量选择方法(IG-SIS)的不足,对其进行改进,提出适用于超高维、无模型假设框架下基于信息增益率的变量选择方法(IGR-SIS),从理论上证明了IGR-SIS方法具有确定性筛选性质,并通过蒙特卡洛数值模拟和基因表达分类数据验证IGR-SIS方法对超高维分类变量选择的有效性。

关键词：变量选择超高维信息增益率确定独立筛选

首页
下一页
尾页
第 页

文献操作() 导出元数据文献计量分析

全选

导出文件格式：WXtxt

作者：

删除

推荐搜索

基于信息增益率的超高维变量选择高维电子病历的数据降维策略与实证研究高维大数据基因网络中的社区发现——以NC方法为例高维数据选元:方法比较及其在纳税评估中的应用实验研究中的调节变量和中介变量比例数据的贝叶斯变量选择密度—直径关系研究中变量变换形式的选择和变量误差矩阵的估计面板数据模型的惩罚似然变量选择方法研究超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制基于附加噪音协变量的Elastic Net高维统计分析