财会

逐步回归及均值预测分析策略（逐步回归分析的优缺点）

2022-10-01 09:41:54再仔467

均值的置信区间及个体的预测区间

在线性回归中我们假定对于每个特定的Xi值，其对应的Yi值来自一个均值为B0+B1X、标准差为∂_ε的分布。对于个体的预测区间，即为已知某个特定的Xi值，想根据该值预测对应得到Yi值，也就是预测某个具体值，这就是对个体的预测，与前者对均值的预测不同，后者预测的是具体的某个值的区间，所以其标准误更大。

逐步回归筛选变量策略

在多因素分析中，一个十分常见而又令初学者非常迷惑的问题是，如果筛选有意义的影响因素，当变量较多的时候，各个变量之间的关系错综复杂，并不是简单根据因素分析结果来确定是否有统计学意义，而是需要一定的分析策略。

但是是否需要进行变量筛选是根据研究目的来定的，当研究者已经明确了盐焗的主要因素，只不过有很多其他因素需要校正，这时是不需要进行变量筛选的，而当研究者并不清楚哪些因素可能与研究因变量有关，这时就需要进行变量筛选，所以在进行多因素分析之前，一定要先明确你的研究目的，在统计软件中，不管你的分析是研究主要因素和混杂因素，还是将所有因素都作为探索性危险因素，他的操作都是相同的，都是把变量纳入相应的界面，如果你没有一个正确统计分析思路来指导，则很容易陷入混乱中。

变量筛选方式很多，这里首先介绍一种理论上的最佳方式，即最优子集选择，就是把所有自变量的组合都拟合一遍，比较一下哪个模型更好，选出最优模型。以下是几个判断最优模型的指标：

决定系数R2

R2反映了因变量的变异能够被模型（纳入的自变量）所解释的比例，也就是模型解释的变异占总变异的比例，R2越大，表示方程中自变量的解释能力越强，不少文章都会报道这一指标，但是各个领域并未统一标准到底该指标达到多大算好，同时，该指标有一个缺陷，就是其值随着自变量的增多而增大，即使加入没有意义的变量，该指标的值也会增大，因此不能较好地反映不同模型的优劣。

校正决定系数R2adj

是对上述的决定系数进行校正后的指标，因为加了一个对自变量的惩罚项使其不会随自变量的增加而增加。

赤池信息准则（AIC）

与R2adj一样，AIC也加入了对自变量个数的惩罚项，但是惩罚力度更大一些。

残差均方

该参数主要是针对于残差加了一个惩罚项，MSE越小的模型，表示拟合效果越好。

Cp统计量

是指针对于P个自变量的散点图，可见没有偏倚的回归方程就是Cp=P的直线，而一个好的模型应该是Cp值小且离Cp=P的直线很近。一般倾向于选择具有较低Cp值的模型。

逐步回归技术有滥用的迹象，不少统计学家建议，如果应用逐步回归法，对其解释结果一定要谨慎，首先，这些方法得到的结果未必就是最优解，因为他们并没有执行所有的自变量组合，其次，当自变量之间的相关性很强时，这些方法可能会较为敏感，此时可能容易忽略某些重要变量。此外，变量选择技术绝不是你把数据直接放到软件中，直接得到结果，在进行变量筛选之前，一定要先弄清楚其是否满足线性回归的应用条件，否则直接做回归是没有任何意义的。第四，向前选择法、向后选择法、逐步设定法的界值不同，所得结果也会有所不同，这一点具有较强的主观性，第五，采用最优子集可以获得不同的模型，而逐步回归只能得到一个模型。

总的建议，如果你的自变量不是很多，则建议首选最优子集回归，表现为电脑能够很快给出结果，但如果无法运行最优子集，则可以考虑先用逐步回归快速扫描，剔除那些较为明显的意义不大的变量，然后再用最优子集回归选择最优模型。

上一篇：托收承付概念是什么意思（托收承付适用主体适用范围）

下一篇：什么是市盈率及如何使用（市盈率的公式有哪些是什么）