通俗理解:内生性VS外生性
现在人们说某个模型有内生性问题(endogeneity issue),是指模型中的 一个或多个解释变量与误差项存在相关关系 。其含义是指模型中的 解释变量 有内生性(endogeneity)。
一、可以简单理解为:
与干扰项项相关的变量称为内生变量(endogenous variable)。
与干扰项不相关的变量称为外生变量(exogenous variable )
对于线性回归模型中的解释变量X,干扰项(不可观测到的因素)u,被解释变量Y。
一般会有Y=aX+u,也就是说X会对Y产生影响,干扰项u也会对Y产生影响,且干扰项u与X无关。那么此时,解释变量X就是外生变量,Y与u是相关的,所以可以说被解释变量Y是内生变量。
但是有时,可能由于某种原因,干扰项也会对X产生一定影响,此时干扰项u和解释变量相关,此时的解释变量X为内生变量。
二、产生内生性问题的原因:
由于经济因素的多重复杂性等原因,内生性问题在所难免,尤其是内生性是计量经济学最为关注的问题。
内生性问题是解释变量与扰动项相关导致的,主要原因有遗漏变量、双向因果和测量误差等导致 无法满足cov(x μ)=0的假设。
1遗漏变量:
遗漏变量是指可能与解释变量Y相关的变量,本来应该加以控制,但是没有控制。此时该变量会跑到扰动项u中,造成扰动项与解释变量存在一定关系。
双向因果:
双向因果是指核心解释变量X和被解释变量Y互相影响。假设扰动项u发生正向冲击,Y会增加,也会导致X发生变动,这样的话就会造成核心解释变量X和扰动项相关。
3测量误差:
测量误差是指被解释变量Y存在度量误差或解释变量X存在度量误差。
比如,当解释变量X存在度量误差时,y=α+βx+e,x无法精确观测,只能观测到x1,x1=x+u,u为度量误差
此时有:y=α+βx1+(e-βu)
因为u和x1相关,所以新的扰动项e-βu和x1存在相关关系,就产生了内生性。
三、如何解决内生性问题:
解决内生性问题的常见方法,主要包括工具变量( instrumental variable,简称IV) 、固定效应模型( fixed effects model,简称FE) 、倾向值匹配( propensity score matching,简称PSM) 、实验以及准实验( experimentsand quasi-experiments) 等等。
最常见的是选用工具变量,工具变量:工具变量要求与内生解释变量相关,但又不能与被解释变量的扰动项相关。由于这两个要求常常是矛盾的,故在实践上寻找合适的工具变量常常很困难,需要相当的想象力与创作性。工具变量个数不少于方程中内生解释变量的个数。“恰好识别”时用2SLS。
2SLS的实质是把内生解释变量分成两部分,即 由工具变量所造成的外生的变动部分 ,以及 与扰动项相关的其他部分 ;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS的要求(解释变量不具有内生性)而得到一致估计量。
举个例子,假设X为解释变量,就是自变量,Y为被解释变量就是因变量,u是干扰项。我们要验证X对Y之间的关系:
如果X是外生性的,也就是X和扰动项u不相关,X只能通过一条路径对Y产生影响,同时干扰项U也会通过另外一条路径对Y产生影响,通过对模型Y=aX +u进行回归,可以得到参数a的估计量。
但是如果X具有内生性,也就是X和干扰项u之间也相关,那么X可以直接对Y产生影响,干扰项 u也会通过X对Y产生一定影响。由图可知,在X具有内生性的情况下,如果仍然使用OLS回归,将得出X对Y的影响参数估计量为a+b/c,但是这个参数估计量并不能代表单独的X对Y之间的影响,它包含两部分,一方面是由X自身对Y的影响a,另一方面是干扰项u通过X对Y的影响b/c。因此,此时OLS不适用。
通俗理解:最小二乘法OLS - 知乎 (zhihu.com)
通俗理解:工具变量IV法VS两阶段最小二乘法2SLS - 知乎 (zhihu.com)
这时候可以引入工具变量Z,Z只和X相关,和干扰项u无关,此时先设X=eZ+w,w为此模型中的误差项,此时的Z和w也无关。
第一步: 用数据进行线性回归得出e的估计量,再把e的估计量带入方程X=eZ+w中,用Z来表示X, 即X=eZ+w;
第二步: 再把X=eZ+w带入Y=aX +u, 此时Y=aeZ +(ae+u),此时,Z与w,u都无关,那么Z是外生性的,从而满足OLS的要求(解释变量不具有内生性),回归得出参数ae的估计量,即得出Z对Y的系数估计量。
工具变量的实质 :就是把内生解释变量X对Y的影响分成了两部分,即X自身对Y产生影响的外生性部分 , 以及与扰动项U相关的其他内生部分。
第一步:把X的外生性部分用工具变量Z表示出来。
第二步:然后再把Y对这个外生部分Z进行回归,而得到一致估计量。