数理统计(4)——参数点估计的优良性及费希尔信息量
![乔胤博](https://picx.zhimg.com/v2-c070a2a3ea707a328025e7a3c86f9f64_l.jpg?source=172ae18b)
![](https://pic1.zhimg.com/v2-4812630bc27d642f7cafcd6cdeca3d7a.jpg?source=88ceefae)
前言
上一小讲简单介绍了参数点估计,具体来说,介绍了矩估计与极大似然估计。这就引出一个问题,同一个参数可以有很多不同的统计量,比如对于 X\sim N(\mu,\sigma^2) 来说,随机取样 n 次,取得 X_1,X_2,...,X_n ,假设存在两个统计量 T_1 = X_1,T_2 = \bar X ,如何知道这两个统计量哪个更好呢?
由此就引出了参数点估计优良性的概念。
参数的优良性通常采用的标准有三个:无偏性、有效性和一致性。
由于笔者非数学专业,因此不对一致性做过多探讨,这里主要讨论无偏性和有效性。
一、无偏性
参数估计是一个统计量,对于不同的样本值所求得的参数估计值一般是不相同的,所以估计量也是一个随机变量。因此要确定一个估计量的优劣,就不能仅仅依赖于某一次试验结果来衡量,而是希望这个估计量在多此试验的结果中,落在待估参数的附近,并使得多次的估计值的平均值恰好就是待估的参数,由此引出无偏性的标准。
定义
若参数 \theta 的估计量 \hat \theta = \hat \theta(X_1,...,X_n) 满足 E(\hat\theta)=\theta ,则称 \hat\theta 为 \theta 的一个无偏估计量,否则就称为有偏估计量。
例题:
无偏性是对估计量的基本要求,同一参数的很多估计量可能都满足这一要求,那么哪一个无偏估计量更好呢?
二、有效性
直观上说,如果两个统计量 \hat \theta_1,\hat \theta_2 都是 \theta 的无偏估计量,其取值都在 \theta 周围波动。如果其中一个 \hat\theta_1 比 \hat\theta_2 更集中地聚集在 \theta 的邻近,则认为用 \hat\theta_1 来估计 \theta 更好。由于方差是随机变量取值与其数学期望偏离程度的度量,所以无偏估计以方差小者为好,由此引出估计量有效性的概念。
注意,有效性是针对无偏估计量而言的,并不是对任何统计量而言的。在多个无偏估计两种选取更好的,就要使用到有效性。
例题:
三、费希尔信息量
无偏估计的方差越小越有效,然而方差是不是可以任意小呢?或者说方差是否存在一个大于0的下界呢?这里就引出费希尔信息量的概念。
我们通过推导来逐步得到费希尔信息量的形式化定义。
假设当前有随机变量 X ,并且随机变量 X\sim p(x;\theta) ,从样本中独立随机取样 n 次,得到样本 X_1,...,X_n ,并且定义 \theta 的一个统计量 T ,则有 \hat\theta = T(X_1,...,X_n) 。
我们认为统计量 T 是 \theta 的无偏估计,则根据联合密度函数的求解方法有,
\theta = E(T) = \int...\int T(x_1,...,x_n)p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n
对上面公式左右分别对 \theta 求导,得到
1= \int...\int T(x_1,...,x_n) (\frac{\frac{\partial p(x_1;\theta)}{\partial\theta}}{p(x_1;\theta)}+...+\frac{\frac{\partial p(x_n;\theta)}{\partial\theta}}{p(x_n;\theta)}) p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n
令 Y=\frac{\frac{\partial p(x_1;\theta)}{\partial\theta}}{p(x_1;\theta)}+...+\frac{\frac{\partial p(x_n;\theta)}{\partial\theta}}{p(x_n;\theta)} ,则上面的公式进一步化简为,
1= \int...\int T Y p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n=E(TY)
由上面的无偏性假设,我们知道统计量 T 是 \theta 的无偏估计,因此有 E(T) = 1 ,另外, \begin{align} E(Y) &= \int...\int Yp(x_1;\theta)...p(x_n;\theta)dx_1...dx_n\\&=\frac{\partial}{\partial \theta}\int...\int p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n\\ &=1'\\ &=0 \end{align}
因此 1=E(TY)-E(T)E(Y) = Cov(T,Y)\le\sqrt{Var(T)Var(Y)} ,进一步等式两边取平方,可以推导出,
Var(T)\ge\frac{1}{Var(Y)}=\frac{1}{nVar(Y_1)}=\frac{1}{nI(\theta)}
其中 I(\theta) 就是费希尔信息量,并且 I(\theta) = E[\frac{\partial}{\partial\theta}lnp(X;\theta)]^2=\int (\frac{\partial}{\partial \theta}p(x;\theta))^2p(x;\theta)dx 。
四、Cramer-Rao不等式
算出了费希尔信息量,实际上就能得到参数估计有效性最小下界了。这里给出一个推广的定理,成为Cramer-Rao不等式。
总结
本小节承接上一小节关于点估计的内容,分享了两点评估参数估计效果的标准,无偏性和有效性。并且给出了费希尔信息量的表达式与证明,希望以上知识能帮助到大家。