您现在的位置是:卡袋教育 > 职业培训 > 财会

财会

逐步回归及均值预测分析策略(逐步回归分析的优缺点)

逐步回归及均值预测分析策略(逐步回归分析的优缺点)

均值的置信区间及个体的预测区间

在线性回归中我们假定对于每个特定的Xi值,其对应的Yi值来自一个均值为B0+B1X、标准差为∂_ε的分布。对于个体的预测区间,即为已知某个特定的Xi值,想根据该值预测对应得到Yi值,也就是预测某个具体值,这就是对个体的预测,与前者对均值的预测不同,后者预测的是具体的某个值的区间,所以其标准误更大。

逐步回归筛选变量策略

在多因素分析中,一个十分常见而又令初学者非常迷惑的问题是,如果筛选有意义的影响因素,当变量较多的时候,各个变量之间的关系错综复杂,并不是简单根据因素分析结果来确定是否有统计学意义,而是需要一定的分析策略。

但是是否需要进行变量筛选是根据研究目的来定的,当研究者已经明确了盐焗的主要因素,只不过有很多其他因素需要校正,这时是不需要进行变量筛选的,而当研究者并不清楚哪些因素可能与研究因变量有关,这时就需要进行变量筛选,所以在进行多因素分析之前,一定要先明确你的研究目的,在统计软件中,不管你的分析是研究主要因素和混杂因素,还是将所有因素都作为探索性危险因素,他的操作都是相同的,都是把变量纳入相应的界面,如果你没有一个正确统计分析思路来指导,则很容易陷入混乱中。

变量筛选方式很多,这里首先介绍一种理论上的最佳方式,即最优子集选择,就是把所有自变量的组合都拟合一遍,比较一下哪个模型更好,选出最优模型。以下是几个判断最优模型的指标:

决定系数R2

R2反映了因变量的变异能够被模型(纳入的自变量)所解释的比例,也就是模型解释的变异占总变异的比例,R2越大,表示方程中自变量的解释能力越强,不少文章都会报道这一指标,但是各个领域并未统一标准到底该指标达到多大算好,同时,该指标有一个缺陷,就是其值随着自变量的增多而增大,即使加入没有意义的变量,该指标的值也会增大,因此不能较好地反映不同模型的优劣。

校正决定系数R2adj

是对上述的决定系数进行校正后的指标,因为加了一个对自变量的惩罚项使其不会随自变量的增加而增加。

赤池信息准则(AIC)

与R2adj一样,AIC也加入了对自变量个数的惩罚项,但是惩罚力度更大一些。

残差均方

该参数主要是针对于残差加了一个惩罚项,MSE越小的模型,表示拟合效果越好。

Cp统计量

是指针对于P个自变量的散点图,可见没有偏倚的回归方程就是Cp=P的直线,而一个好的模型应该是Cp值小且离Cp=P的直线很近。一般倾向于选择具有较低Cp值的模型。

逐步回归技术有滥用的迹象,不少统计学家建议,如果应用逐步回归法,对其解释结果一定要谨慎,首先,这些方法得到的结果未必就是最优解,因为他们并没有执行所有的自变量组合,其次,当自变量之间的相关性很强时,这些方法可能会较为敏感,此时可能容易忽略某些重要变量。此外,变量选择技术绝不是你把数据直接放到软件中,直接得到结果,在进行变量筛选之前,一定要先弄清楚其是否满足线性回归的应用条件,否则直接做回归是没有任何意义的。第四,向前选择法、向后选择法、逐步设定法的界值不同,所得结果也会有所不同,这一点具有较强的主观性,第五,采用最优子集可以获得不同的模型,而逐步回归只能得到一个模型。

总的建议,如果你的自变量不是很多,则建议首选最优子集回归,表现为电脑能够很快给出结果,但如果无法运行最优子集,则可以考虑先用逐步回归快速扫描,剔除那些较为明显的意义不大的变量,然后再用最优子集回归选择最优模型。

相关问答

热门财会问答