数理统计(4)——参数点估计的优良性及费希尔信息量

2 年前

前言

上一小讲简单介绍了参数点估计,具体来说,介绍了矩估计与极大似然估计。这就引出一个问题,同一个参数可以有很多不同的统计量,比如对于 X\sim N(\mu,\sigma^2) 来说,随机取样 n 次,取得 X_1,X_2,...,X_n ,假设存在两个统计量 T_1 = X_1,T_2 = \bar X ,如何知道这两个统计量哪个更好呢?

由此就引出了参数点估计优良性的概念。

参数的优良性通常采用的标准有三个:无偏性、有效性和一致性。

由于笔者非数学专业,因此不对一致性做过多探讨,这里主要讨论无偏性和有效性。

一、无偏性

参数估计是一个统计量,对于不同的样本值所求得的参数估计值一般是不相同的,所以估计量也是一个随机变量。因此要确定一个估计量的优劣,就不能仅仅依赖于某一次试验结果来衡量,而是希望这个估计量在多此试验的结果中,落在待估参数的附近,并使得多次的估计值的平均值恰好就是待估的参数,由此引出无偏性的标准。

定义

若参数 \theta 的估计量 \hat \theta = \hat \theta(X_1,...,X_n) 满足 E(\hat\theta)=\theta ,则称 \hat\theta \theta 的一个无偏估计量,否则就称为有偏估计量。

例题:

无偏性是对估计量的基本要求,同一参数的很多估计量可能都满足这一要求,那么哪一个无偏估计量更好呢?

二、有效性

直观上说,如果两个统计量 \hat \theta_1,\hat \theta_2 都是 \theta 的无偏估计量,其取值都在 \theta 周围波动。如果其中一个 \hat\theta_1 \hat\theta_2 更集中地聚集在 \theta 的邻近,则认为用 \hat\theta_1 来估计 \theta 更好。由于方差是随机变量取值与其数学期望偏离程度的度量,所以无偏估计以方差小者为好,由此引出估计量有效性的概念。

统计量的有效性

注意,有效性是针对无偏估计量而言的,并不是对任何统计量而言的。在多个无偏估计两种选取更好的,就要使用到有效性。

例题:

三、费希尔信息量

无偏估计的方差越小越有效,然而方差是不是可以任意小呢?或者说方差是否存在一个大于0的下界呢?这里就引出费希尔信息量的概念。

我们通过推导来逐步得到费希尔信息量的形式化定义。

假设当前有随机变量 X ,并且随机变量 X\sim p(x;\theta) ,从样本中独立随机取样 n 次,得到样本 X_1,...,X_n ,并且定义 \theta 的一个统计量 T ,则有 \hat\theta = T(X_1,...,X_n)

我们认为统计量 T \theta 的无偏估计,则根据联合密度函数的求解方法有,

\theta = E(T) = \int...\int T(x_1,...,x_n)p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n

对上面公式左右分别对 \theta 求导,得到

1= \int...\int T(x_1,...,x_n) (\frac{\frac{\partial p(x_1;\theta)}{\partial\theta}}{p(x_1;\theta)}+...+\frac{\frac{\partial p(x_n;\theta)}{\partial\theta}}{p(x_n;\theta)}) p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n

Y=\frac{\frac{\partial p(x_1;\theta)}{\partial\theta}}{p(x_1;\theta)}+...+\frac{\frac{\partial p(x_n;\theta)}{\partial\theta}}{p(x_n;\theta)} ,则上面的公式进一步化简为,

1= \int...\int T Y p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n=E(TY)

由上面的无偏性假设,我们知道统计量 T \theta 的无偏估计,因此有 E(T) = 1 ,另外, \begin{align} E(Y) &= \int...\int Yp(x_1;\theta)...p(x_n;\theta)dx_1...dx_n\\&=\frac{\partial}{\partial \theta}\int...\int p(x_1;\theta)...p(x_n;\theta)dx_1...dx_n\\ &=1'\\ &=0 \end{align}

因此 1=E(TY)-E(T)E(Y) = Cov(T,Y)\le\sqrt{Var(T)Var(Y)} ,进一步等式两边取平方,可以推导出,

Var(T)\ge\frac{1}{Var(Y)}=\frac{1}{nVar(Y_1)}=\frac{1}{nI(\theta)}

其中 I(\theta) 就是费希尔信息量,并且 I(\theta) = E[\frac{\partial}{\partial\theta}lnp(X;\theta)]^2=\int (\frac{\partial}{\partial \theta}p(x;\theta))^2p(x;\theta)dx

四、Cramer-Rao不等式

算出了费希尔信息量,实际上就能得到参数估计有效性最小下界了。这里给出一个推广的定理,成为Cramer-Rao不等式。

Cramer-Rao不等式

总结

本小节承接上一小节关于点估计的内容,分享了两点评估参数估计效果的标准,无偏性和有效性。并且给出了费希尔信息量的表达式与证明,希望以上知识能帮助到大家。

编辑于 2021-03-25 17:16