在许多多重线性回归中,模型中包含的自变量没有办法事先确定,如果把一些不重要的或者对因变量影响很弱的变量引人模型,则会降低模型的精度。所以自变量的选择是必要的,其基本思路是: 尽可能将对因变量影响大的自变量选入回归方程中,并尽可能将对因变量影响小的自变量排除在外,即建立所谓的“最优”方程。
1.筛选标准与原则。 对于自变量各种不同组合建立的回归模型,使用全局择优法选择“最优”的回归模型。
(1) 残差平方和缩小与决定系数增大。如果引人一个自变量后模型的残差平方和减少很多,那么说明该自变量对因变量y贡献大,将其引入模型;反之,说明该自变量对因变量y贡献小,不应将其引入模型。另一方面,如果某一变量剔除后模型的残差平方和增加很多,则说明该自变量对因变量y贡献大,不应被剔除;反之,说明该自变量对因变量y贡献小,应被剔除。决定系数增大与残差平方和缩小完全等价。
(2) 残差均方缩小与调整决定系数增大。残差均方缩小的准则是在残差平方和缩小准则基础上增加了
因子,它随模型中自变量p的增加而增加,体现出对模型中自变量个数增加所实施的惩罚。调整决定系数增大与残差均方缩小完全等价。
(3)
统计量。由C.L.Mallows提出,其定义为:
为全模型的残差均方估计; q为所选模型中(包括常数项) 的自变量个数。如果含q个自变量的模型是合适的,则其 残差平方和 的期望
。假定全模型的残差均方估计的期望
的期望近似等于模型中参数的个数,即
值对参数个数q绘制散点图,将显示“合适模型”的散点在直线
附近,拟合不佳的模型远离此线。
2.自变量筛选常用方法。 常用方法如下:
(1) 前进法(forward selection) 。事先定一个选人自变量的标准。开始时,方程中只含常数项,按自变量对y的贡献大小由大到小依次选入方程。每选入一个自变量,则要重新计算方程外各自变量(剔除已选人变量的影响后) 对y的贡献,直到方程外变量均达不到选入标准为止。变量一旦进人模型,就不会被剔除。
(2) 后退法(backward selection) 。事先定一个剔除自变量的标准。开始时,方程中包含全部自变量,按自变量y对的贡献大小由小到大依次剔除。每剔除一个变量,则重新计算未被剔除的各变量对y的贡献大小,直到方程中所有变量均不符合剔除标准,没有变量可被剔除为止。自变量一旦被剔除,则不考虑进入模型。
(3) 逐步回归法(stepwise selection) 。本法区别于前进法的根本之处是每引人一个自变量,都会对已在方程中的变量进行检验,对符合剔除标准的变量要逐一剔除
多重共线性 (multi-colinearity) 是进行多重回归分析时存在的一个普遍问题。多重共线性是指自变量之间存在近似的线性关系,即某个自变量能近似地用其他自变量的线性函数来表示。在实际回归分析应用中,自变量间完全独立很难,所以共线性的问题并不少见。自变量一般程度上的相关不会对回归结果造成严重的影响,然而,当共线性趋势非常明显时,它就会对模型的拟合带来严重影响。
(1) 偏回归系数 的估计值大小甚至是方向明显与常识不相符。
(2) 从专业角度看对因变量有影响的因素,却不能选入方程中。
(3) 去掉一两个记录或变量,方程的回归系数值发生剧烈的变化,非常不稳定。
(4) 整个模型的检验有统计学意义,而模型包含的所有自变量均无统计学意义。
当出现以上情况时,就需要考虑是不是变量之间存在 多重共线性
多重共线性的诊断
在做多重回归分析的共线性诊断时,首先要对所有变量进行标准化处理。SPSS中可以通过以下指标来辅助判断有无多重共线性存在。
(1) 相关系数 。通过做自变量间的散点图观察或者计算相关系数判断,看是否有一些自变量间的相关系数很高。一般来说,2个自变量的相关系数超过0.9,对模型的影响很大,将会出现共线性引起的问题。这只能做初步的判断,并不全面。
(2) 容忍度(tolerance) 。以每个自变量作为因变量对其他自变量进行回归分析时得到的残差比例,大小用1减去决定系数来表示。该指标值越小,则说明被其他自变量预测的精度越高,共线性可能越严重。
(3) 方差膨胀因子 (variance inflation factor,VIF) 。方差膨胀因子是容忍度的倒数,VIF越大,显示共线性越严重。VIF>10时,提示有严重的多重共线性存在。
(4) 特征根(eigenvalue) 。实际上是对自变量进行主成分分析,如果特征根为0,则提示有严重的共线性。
(5) 条件指数(condition index) 。当某些维度的该指标大于30时,则提示存在共线性。
共线性解决方案
自变量间确实存在 多重共线性 ,直接采用多重回归得到的模型肯定是不可信的,此时可以用下面的办法解决。
(1) 增大样本含量,能部分解决多重共线性问题。
(2) 把多种自变量筛选的方法结合起来拟合模型。建立一个“最优”的逐步回归方程,但同时丢失一部分可利用的信息。
(3) 从专业知识出发进行判断,去除专业上认为次要的,或者是缺失值比较多、测量误差较大的共线性因子。
(4) 进行主成分分析,提取公因子代替原变量进行回归分析。
(5) 进行岭回归分析,可以有效解决 多重共线性 问题。
(6) 进行通径分析(path analysis),可以对应自变量间的复杂关系精细刻画