数理统计（4）——参数点估计的优良性及费希尔信息量

2 年前

乔胤博

天行健，君子以自强不息；地势坤，君子以厚德载物。

前言

上一小讲简单介绍了参数点估计，具体来说，介绍了矩估计与极大似然估计。这就引出一个问题，同一个参数可以有很多不同的统计量，比如对于 X\sim N(\mu,\sigma^2) 来说，随机取样 n 次，取得 X_1,X_2,...,X_n ，假设存在两个统计量 T_1 = X_1,T_2 = \bar X ，如何知道这两个统计量哪个更好呢？

由此就引出了参数点估计优良性的概念。

参数的优良性通常采用的标准有三个：无偏性、有效性和一致性。

由于笔者非数学专业，因此不对一致性做过多探讨，这里主要讨论无偏性和有效性。

一、无偏性

参数估计是一个统计量，对于不同的样本值所求得的参数估计值一般是不相同的，所以估计量也是一个随机变量。因此要确定一个估计量的优劣，就不能仅仅依赖于某一次试验结果来衡量，而是希望这个估计量在多此试验的结果中，落在待估参数的附近，并使得多次的估计值的平均值恰好就是待估的参数，由此引出无偏性的标准。

定义

若参数 \theta 的估计量 \hat \theta = \hat \theta(X_1,...,X_n) 满足 E(\hat\theta)=\theta ，则称 \hat\theta 为 \theta 的一个无偏估计量，否则就称为有偏估计量。

例题：

无偏性是对估计量的基本要求，同一参数的很多估计量可能都满足这一要求，那么哪一个无偏估计量更好呢？

二、有效性

直观上说，如果两个统计量 \hat \theta_1,\hat \theta_2 都是 \theta 的无偏估计量，其取值都在 \theta 周围波动。如果其中一个 \hat\theta_1 比 \hat\theta_2 更集中地聚集在 \theta 的邻近，则认为用 \hat\theta_1 来估计 \theta 更好。由于方差是随机变量取值与其数学期望偏离程度的度量，所以无偏估计以方差小者为好，由此引出估计量有效性的概念。

注意，有效性是针对无偏估计量而言的，并不是对任何统计量而言的。在多个无偏估计两种选取更好的，就要使用到有效性。

例题：

三、费希尔信息量

无偏估计的方差越小越有效，然而方差是不是可以任意小呢？或者说方差是否存在一个大于0的下界呢？这里就引出费希尔信息量的概念。

我们通过推导来逐步得到费希尔信息量的形式化定义。

假设当前有随机变量 X ，并且随机变量 X\sim p(x;\theta) ，从样本中独立随机取样 n 次，得到样本 X_1,...,X_n ，并且定义 \theta 的一个统计量 T ，则有 \hat\theta = T(X_1,...,X_n) 。

我们认为统计量 T 是 \theta 的无偏估计，则根据联合密度函数的求解方法有，

\theta = E(T) = \int...\int T(x_1,...,x_n)p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n

对上面公式左右分别对 \theta 求导，得到

1= \int...\int T(x_1,...,x_n) (\frac{\frac{\partial p(x_1;\theta)}{\partial\theta}}{p(x_1;\theta)}+...+\frac{\frac{\partial p(x_n;\theta)}{\partial\theta}}{p(x_n;\theta)}) p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n

令 Y=\frac{\frac{\partial p(x_1;\theta)}{\partial\theta}}{p(x_1;\theta)}+...+\frac{\frac{\partial p(x_n;\theta)}{\partial\theta}}{p(x_n;\theta)} ，则上面的公式进一步化简为，

1= \int...\int T Y p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n=E(TY)

由上面的无偏性假设，我们知道统计量 T 是 \theta 的无偏估计，因此有 E(T) = 1 ，另外， \begin{align} E(Y) &= \int...\int Yp(x_1;\theta)...p(x_n;\theta)dx_1...dx_n\\&=\frac{\partial}{\partial \theta}\int...\int p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n\\ &=1'\\ &=0 \end{align}

因此 1=E(TY)-E(T)E(Y) = Cov(T,Y)\le\sqrt{Var(T)Var(Y)} ，进一步等式两边取平方，可以推导出，

Var(T)\ge\frac{1}{Var(Y)}=\frac{1}{nVar(Y_1)}=\frac{1}{nI(\theta)}

其中 I(\theta) 就是费希尔信息量，并且 I(\theta) = E[\frac{\partial}{\partial\theta}lnp(X;\theta)]^2=\int (\frac{\partial}{\partial \theta}p(x;\theta))^2p(x;\theta)dx 。

四、Cramer-Rao不等式

算出了费希尔信息量，实际上就能得到参数估计有效性最小下界了。这里给出一个推广的定理，成为Cramer-Rao不等式。

总结

本小节承接上一小节关于点估计的内容，分享了两点评估参数估计效果的标准，无偏性和有效性。并且给出了费希尔信息量的表达式与证明，希望以上知识能帮助到大家。

编辑于 2021-03-25 17:16