回归分析|笔记整理(1)——引入,一元线性回归(上)

回归分析|笔记整理(1)——引入,一元线性回归(上)

大家好!

新学期开始了,不知道大家又是否能够适应新的一学期呢?先祝所有大学生和中小学生开学快乐!

本学期我的专业课是概率论, 回归分析 ,偏微分方程,数值代数,数值逼近,金融时间序列分析,应用金融计量学和商务英语。在所有的这些课程中,回归分析其实相对来说是比较友好的。但是学统计的人应该都会有感觉就是,回归分析这一门课 无论是在理论还是课后的软件实践上 ,都是非常重要的一门统计课。这也是我决定好好花点时间,整理整理这一门课的笔记的原因。

这一份笔记需要有《概率论》和《数理统计》的先修知识。如果你修过工科的《概率统计》应该也够了。因为个人数学专业的缘故,所以这一系列的笔记大部分会关注 回归分析的理论 而不是实践。个人认为,虽然现在关于回归已经有非常多的软件能够实现,但是只有真正了解它的本质,才能在 研发和创新 上有路可走。因此这一部分笔记其实非常适合了解回归内容,会使用软件跑回归, 但是不太清楚回归的一些基本参数和原理的人 去阅读。

我们在之前的《统计学笔记》系列也确实有简单提到过回归分析(第7节),但是远没有这一份笔记来的系统。而且那一篇笔记只是一个简单的勾勒,在具体的原理细节上都说的很不清楚。因此这一系列的笔记,如果会一直更新的话, 将会在《统计学笔记》的基础上做进一步系统而深入的细化 ,并努力把相关的理论解释清楚。

因为暑假的时间很紧张(带孩子去了……),自己的之后的研究规划什么的还没有完全确定,因此暑假其实没有太大的贡献。当然我自己还不清楚会有什么其余的打算。但是不管怎么说,虽然别的内容是否总结整理我还没有定,但是这一系列笔记,我会尽力的去跟上教授的进度,并展现在这里。

我们学校的《回归分析》是根据教授自己的slides进行授课的。所以我们的所有的笔记内容都会与教授的讲义有关。如果需要一本参考书的话,推荐人大的《应用回归分析》。但是教授自己也说了,这书很不理论……

《回归分析》是我上的真正意义上的 第一门 统计专业的理论课。不可避免的是相比真正的统计学,我的笔记因为自己的理解很多,所以不能保证所有的内容都是“正确无误”的。 如果发现了一些问题,也欢迎在评论区指正

好了,废话就说到这里了,我们开始本节的内容吧。

目录

  • 引言——关系与回归的由来
  • 一些回归的概念
  • 三大基本假设
  • 一元线性回归
    • 参数估计
      • 最小二乘估计
      • 最大似然估计
    • 参数的统计性质
      • 残差关系式
      • \hat \beta_0, \hat \beta_1 的相关性质与统计量
      • 最佳线性无偏估计
  • 小结

引言——关系(Correlation)与回归的由来

研究代数方向或者学基础数学的人可能会把“关系”与集合论联系到一起?为了防止出现这个误解,我标注了一下英文……

任何一个合格的大学生,都肯定在高中数学的《选修2-3》中接触过回归(regression),在那个时候我们就知道,回归分析就是给了一些数据点,根据这些数据点画一条直线,然后我们就根据这条直线去做预测。所有学统计的人也应该都会有一种感觉,就是说,统计一定程度上, 破坏了数学的严谨性 。出现这一条鄙视链的原因是,统计研究的是一种 非确定性关系

作为一个学数学的人,在没接触统计学之前,最烦的就是“不确定”。一加一等于几,你不能说它又是2,又是3。抽象一层来说,就有点“函数”的意思。在初中第一次接触函数就知道,给定一个自变量 x ,你必须要告诉我确定的 y 是多少。这就是 确定性关系 。它不打马虎眼的,结果是确定的。

那么为什么说统计“不严谨”呢?比方说你研究一个人身高与体重的联系,这个时候,你告诉我一个人的身高 x ,我是没有办法告诉你一个确定的体重 y 的。出现这样的问题的原因归因于 世界的概率和未知 。换句话说,世界上任何一个事情,都是有自己的 概率分布 的。比如说“太阳不可能从西边升起”这句话,实际上暗含的意思是“太阳从西边升起的概率为0”(当然细究一下这句话确实也不够严谨,因为概率为0并不代表不会发生)。所以只能说使用统计去找到某一个“最有可能发生的地方”,然后认为这个“概率最大”的地方就是我们要的结果。比如说我告诉你我身高是184cm,那么通过统计,你可以认为我“最有可能”体重是75kg,那么一般来说,如果作预测,你可能就会说,你“预测”我是75kg。但是实际上不一定是75kg的。

那么回归分析是怎么回事呢?如果我知道对于每一个 x 都有一个确定的 y ,那么就没统计什么事了。但是如果对于每一个 x 都有一个确定的 y 概率分布 ,你就会发现坏事了。下面一个图展现了这个问题,也展现了具体的“非确定性关系”。

对于每一个具体的x,都会有不同的概率分布,那么想给定一个确定的y就不可能了,因为在概率分布上的每一个值y都有可能是最终的结果。

为了勾勒出这种“非确定性关系”,我们引入了 相关分析和回归分析 。相关分析就是很单纯的,研究两个变量之间的关系。我当然可以认为两个变量都是随机变量。但是回归分析,是 要研究因果关系的 。要求给定的 x ,也就是“原因”,要明确。这会引出我们之后说的 回归分析的三大基本假设之一 。而回归分析,本质上,就是把可能 概率最大的点给找出来 ,然后画在图上。这个我们之后的细节也会涉及到。

其实回归这个词本身也有它自己的来历,感兴趣的可以关注下 高尔顿的农场实验 。关于关系,就废话这么多。所以感觉学统计就是好,随随便便说废话也没人管我。不像纯数学怎么编废话都编不了几句……

一些回归的概念

首先要说明什么是 回归函数 。我们之前说了,给定一个 x ,出来的其实是 y 的一个概率分布。因此我们实际上要研究的,其实就是 E(y |x) (为什么这么说,之后会解释)。所以为了研究回归,我们说 E(y|x)=f(x) 就是回归函数。

那么什么是 线性回归 呢? 请注意 ,它是针对 回归系数 要求线性。比方说常见的多元回归 f(x)=\alpha+\beta x+\gamma x^2 ,它依然是一个线性回归函数,因为 \alpha,\beta,\gamma 都是一次的。

那么什么是 回归方程 呢?讲白了,如果回归函数的形式我们找到了,那它就变成回归方程了。比方说我们发现 f(x)=\alpha+\beta x+\gamma x^2 ,那么回归方程就是 E(y|x)=f(x)=\alpha+\beta x+\gamma x^2 。因为嫌 E(y|x) 太麻烦了,所以我们就直接写成 y=\alpha+\beta x+\gamma x^2 ,这就是我们熟悉的回归方程的形式了。

说到回归方程,就又多了两个概念—— 理论回归方程 经验回归方程 。什么意思?理论回归方程,就是说我们知道了具体的形式, 但是不知道系数 。一般写成 y=\alpha+\beta x+\gamma x^2 而经验回归方程就是说,我们通过了一系列的操作,把系数给“估计”出来了,那就变成了经验回归方程。一般写成 \hat y = \hat \alpha + \hat \beta x+\hat \gamma x^2

有人问,为什么说是“经验”回归方程?没有错,通过这么一个回归函数,我们确实可以有法子,在给定我的 x 之后,把我的 y 的概率分布的最大的点确定下来。但是, 能确定 y 的概率分布吗 ?放心吧,统计学家早就放弃这个打算了。所以实际上我们确实找到了回归系数,但是我们一定是没办法找到“正确的”系数的,因为你没有办法捕获所有的影响 y 的因素。正因因此,我们说它是“经验的”,其实暗含的意思是,我们通过了已知的,经验的数据,去“预测”回归系数,应该是这个最好。但是真正它是多少,我们永远没有办法知道。

也正是这个原因,我们认为,无论你怎么写回归函数,最终的结果都是 有偏差的 ,这也是引入 误差项 的原因之一,也就正好引入了回归方程的 一般形式 y=f(x_1,x_2,\ldots,x_p)+\epsilon

三大基本假设

勾画出具体的两个变量之间的关系,不做点假设你从哪里下手?所以我们在回归之前,做了三个基本假设。

Notation 1: Three basic assumptions of regression analysis
(1) x_1,\ldots,x_p 非随机。
(2) \begin{cases} E(\epsilon_i)=0 & i=1,2,\ldots,n \\ cov(\epsilon_i,\epsilon_j) = \begin{cases} \sigma^2 & i =j \\ 0 & i \ne j \\ \end{cases} & i=1,2,\ldots,n \end{cases} (Gauss-Markov条件)
(3) \epsilon_i \sim N(0,\epsilon^2) i=1,2,\cdots,n
\epsilon_1,\epsilon_2,\cdots, \epsilon_n ~ are ~ inter-independent (正态分布假定)

第一个假设的意思就是“原因要明确”,我们在之前的引言有说。第二个假设是为什么呐?我们做一个数学推导就能看出来。

Deduction 1:
y=f(x)+\epsilon
E(y|x) = E(f(x)|x)+E(\epsilon|x)=f(x)

看出来了吗?中间我们用了假设 E(\epsilon)=0 。如果这个假设不对,那么我们的回归函数的形式就错了,那也就是说我们刚开始研究的根基就被破坏了。这显然是不被允许的。

当然有人问,那如果 E(\epsilon) \ne 0 怎么办?一般是没有关系的,比如说它是一个常数 a ,那么它可以被“吸收”进 f(x) 里。也就是说,设 g(x)=f(x)+a ,然后认为 g(x) 是回归函数即可。

第二个假设的第二条是为什么呐?这里的我们的假设的意思相当于,允许有一定的方差,但是误差项之间协方差必须为0,且误差项本身的方差必须在每一个点都相等。一方面,如果几个数据点之间有关系了是什么一个情况?一个经典的例子就是 多重共线性 。我们不在这里给出这方面的细节,但是我们之后的笔记中会具体的说明有关多重共线性的内容。当然,另一方面,如果每一个点的方差不一样怎么办?这个我们有专门的说法叫 异方差性 。出现了这种情况的话,统计学家也有自己的方法去解决它,之后的笔记里会涉及到。

第三个假设也很好理解,如果残差项之间不是无关的,那么出现的问题,上一段已经说过了。为什么要假定为“正态分布”呢?除去正态分布的满足的比较好的一些性质以外,还有一个考虑是,它让回归 “有办法”能够捕获到“概率最大”的点 。下面的图就说明了这一点。

正态分布的期望值就正好落在最高处,也就是说,我们要求的E(y|x)对应的那个x值就正好是概率最大的点,符合我们的预期。

所以,我们差不多算是说完了回归的最基本的一些东西。现在开始,我们要坐上数学的车了……

一元线性回归

参数估计

一元线性回归的基本形式就是 y_i = \beta_0+\beta_1 x_i + \epsilon_i, i = 1,2,\ldots,n 。通过这个我们可以得到的一个结论是 y_i \sim N(\beta_0+\beta_1x_i,\sigma^2) 。通过两边取期望和方差是容易看出来这一点的。

我们之前说过,回归函数就是用来预测非确定性关系的。但是你作为一个函数,总不能连系数都不知道吧?所以才有了估计系数的说法。对于一元线性回归,估计系数自然就是估计 \beta_0,\beta_1 了。

估计参数的方法自然不少,这里主要说两种。

最小二乘估计(OLSE)

要知道,回归分析的基本操作原理是“ 捕获信息 ”。也就是说,我们需要通过已有的信息,去推测出新的未知的信息。那么什么是“已有的信息”?自然就是给定的一些数据点了。我们在之前解释过,我们根本不可能完全预测准确,对于给定的 x ,它所对应的确切的 y 是多少。但是我们很明显,为了精确,是希望能够“ 减小误差 ”的。而最小二乘估计的目的就是去减少这种误差。数学公式表示出来就是 \sum[y_i-E(y_i|x_i)]^2 ,其中 \{(x_i,y_i)\} 是一系列已知的数据点。

那么为什么要使用平方呢?有人问我用 \sum|y_i-E(y_i|x_i)| 不行吗?直观上来看,这样似乎没有太大的问题。但是 你怎么求它的极值呢 ?别忘了,我们既然要“减小误差”,那自然就是需要去寻找它“最小”的时候。怎么寻找极值,所有的高中生都知道应该使用导数。行了,绝对值处处可导吗?好像不是吧。基于这个考虑,我们使用了平方。

好的,回到正题,要注意的地方是 E(y_i|x_i)=\beta_0+\beta_1x_i ,所以我们归根到底,就是要最小化 \sum[y_i-(\beta_0+\beta_1x_i)]^2 。如果我们设这个函数为 Q(\beta_0,\beta_1) ,要求极值?别想了,求偏导吧。所以我们自然可以通过求偏导,去得到最终的结果。

具体的推导细节,在《统计学笔记》的第7节中可以找到,这里我们直接给出推导的结果。

Notation 2:
\hat \beta_1=\frac{\sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^{n}(x_i-\bar x)^2}
\hat \beta_0 = \bar y -\hat \beta_1 \bar x

因为这里我们找到了这两个具体的系数,所以自然,系数的符号要改为 \hat \beta_0,\hat \beta_1 了。

最大似然估计(MLE)

只要你学过《概率统计》,就不会感到陌生。

我们之前对 \epsilon ,也就是误差项,作过正态分布的假定。又因为 y_i \epsilon 的一个线性组合(别忘了, x_i 不认为是随机变量),所以实际上 y_i 也是服从正态分布的。因此它的概率分布函数就是 f_i(y_i)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{1}{2\sigma^2}[y_i-(\beta_0+\beta_1x_i)]^2\} 。那么乘在一起就是 L(\beta_0,\beta_1,\sigma^2) = \prod_{i=1}^n f_i(y_i) = (2\pi\sigma^2)^{-\frac n2}\exp \{-\frac{1}{2\sigma^2} \sum_{i=1}^{n}[y_i-(\beta_0+\beta_1x_i)]^2\}

显然这个函数直接求导是不切实际的,因此我们取一下对数,得到 \ln L=-\frac n 2 \ln (2 \pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n}[y_i - (\beta_0+\beta_1x_i)]^2

当然了,这并不会让很多人觉得简单很多,因为看上去还是存在一定的复杂度的。但是别忘了,什么是最大似然估计?意思就是要最大化 L ,也就是最大化 \ln L 。注意,在 \sigma^2 已知的时候,如果我们要最大化 L ,那么其实最后的目的就是最小化 \sum_{i=1}^{n}[y_i - (\beta_0+\beta_1x_i)]^2 有没有感觉似曾相识 ?对,这就是OLSE了,所以实际上,最后我们得到的结果, \beta_0,\beta_1 的估计值其实是与OLSE无差的。最后的问题其实就回到了 \sigma^2 的估计。

要估计 \sigma^2 ,还有一个技巧就是,你可以把 \sigma^2 当作一个变量去考虑,这样求导就会方便很多。最后我们得到的结果如下:

Notation 3:
\hat \sigma^2 = \frac1 n \sum_{i=1}^{n}e_i^2

\hat \beta_0,\hat \beta_1 与之前相同,其中 e_i=y_i-\hat y_i

参数的统计性质

其实在之前,我们就已经涉及到了不少新的参数,它们自然也有自己的性质,我们一一介绍。

残差关系式

我们回到最小二乘估计的过程中去,求偏导得到的两个式子是什么?

Notation 4:
\frac{\partial Q}{\partial \beta_0} = -2 \sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i) = 0
\frac{\partial Q}{\partial \beta_1} = -2\sum_{i=1}^{n}x_i(y_i-\beta_0-\beta_1x_i)=0

别忘了,估计完 \beta_0,\beta_1 之后,它们俩的标记就变为了 \hat \beta_0,\hat \beta_1 。另外还要注意的是, e_i=y_i-\hat y_i=y_i-\hat \beta_0-\hat \beta_1x_i 。因此我们实际上,根据这两个式子,得到的残差关系式就是

Notation 5:
\sum e_i=0
\sum x_ie_i =0

\hat \beta_0,\hat \beta_1 的相关性质与统计量

首先是 线性性 。我们来看一下 \hat \beta_1 ,我们之前已经说过, \hat \beta_1=\frac{\sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^{n}(x_i-\bar x)^2} ,那么对分子我们拆开一下,可以看出 \sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)=\sum_{i=1}^{n}(x_i-\bar x)y_i-\sum_{i=1}^{n}(x_i-\bar x)\bar y=\sum_{i=1}^{n}(x_i-\bar x)y_i (注意, \bar y 不随指标变化,而 \sum_{i=1}^n(x_i-\bar x) = \sum_{i=1}^{n}x_i-n\bar x=0 )。那么又因为 \hat \beta_1 的分母也是一个常数,所以我们可以看出, 它实际上就是 y_1,y_2,\ldots,y_n 的线性组合 。这样的话, \hat \beta_0 也自然不用说了,很简单就能看出来。

其次是 无偏性 。我们先证明 E(\hat \beta_1)=\beta_1

Deduction 2:
\hat \beta_1 = \sum_{i=1}^{n}\frac{x_i-\bar x}{\sum_{i=1}^{n}(x_i-\bar x)^2}y_i
E(\hat \beta_1)=\sum_{i=1}^{n}\frac{x_i-\bar x}{\sum_{i=1}^{n}(x_i-\bar x)^2}E(y_i)
E(\hat \beta_1)=\sum_{i=1}^{n}\frac{x_i-\bar x}{\sum_{i=1}^{n}(x_i-\bar x)^2}(\beta_0+\beta_1x_i)=\sum_{i=1}^{n}\frac{x_i-\bar x}{\sum_{i=1}^{n}(x_i-\bar x)^2}\beta_1x_i (想想为什么,我们之前有说过)
E(\hat \beta_1)=\beta _1\sum_{i=1}^{n}\frac{(x_i-\bar x)x_i}{\sum_{i=1}^{n}(x_i-\bar x)^2}=\beta_1

最后一条需要注意到 \sum_{i=1}^{n}(x_i-\bar x)x_i =\sum_{i=1}^{n}(x_i-\bar x)^2=\sum_{i=1}^{n}x_i^2-n\bar x^2

根据这个,我们来看看 \hat \beta _0 的情况。

Deduction 3:
\hat \beta_0 = \bar y -\hat \beta_1 \bar x
E(\hat \beta_0)=\frac1n\sum_{i=1}^{n}E(y_i)-\bar x E(\hat \beta_1)
E(\hat \beta_0)=\frac1n\sum_{i=1}^{n}(\beta_0+\beta_1x_i)-\bar x \beta_1
E(\hat \beta_0)=\frac1n(n\beta_0+\beta_1\sum_{i=1}^{n}x_i)-\bar x \beta_1=\beta_0

最后一步注意到 \frac1n\sum_{i=1}^{n}x_i=\bar x

OK,下面是一个更刺激的东西—— 方差 。这么说的原因是它的运算相比期望来说要更加复杂一些,我们继续看它们方差的推导。一样,先看看 \hat \beta_1

Deduction 4:
var(\hat \beta_1)=var(\sum_{i=1}^{n}\frac{x_i-\bar x}{\sum_{i=1}^{n}(x_i-\bar x)^2}y_i)=\sum_{i=1}^{n}var(\frac{x_i-\bar x}{\sum_{i=1}^{n}(x_i-\bar x)^2}y_i) (注意每一个 y_i 之间的协方差为0)
var (\hat \beta_1)= \sigma^2 \sum_{i=1}^{n}\frac{(x_i-\bar x)^2}{[\sum_{i=1}^{n}(x_i-\bar x)^2]^2}=\frac{\sigma^2}{\sum_{i=1}^{n}(x_i-\bar x)^2} (关于 y_i 而言,之前一大串都是常数,可以直接从var()内拿出来)

根据这个, \hat \beta_0 就好推了。

Deduction 5:
\hat \beta_0 = \bar y -\hat \beta_1 \bar x
var(\hat \beta_0)=var(\bar y-\hat \beta_1\bar x)=var(\bar y)+var(\hat \beta_1\bar x) (注意两个常数之间协方差为0)
var (\hat \beta_0)=\frac{\sigma^2}{n}+\bar x^2\frac{\sigma^2}{\sum_{i=1}^{n}(x_i-\bar x)^2} =[\frac1n+\frac{\bar x^2}{\sum_{i=1}^{n}(x_i-\bar x)^2}]\sigma^2

下一步,是关于两个参数的 分布 。这没什么好说的,因为 \epsilon_i 都是服从正态分布的,所以 y_i 也自然服从正态分布,所以就得到了它们俩也是正态分布的结论(由线性性)。

最后也是最有技巧的部分—— 协方差 。这个推导如果找错了方法,是很要人命的。这里给一个我同学想出的比较容易的推导过程。

Deduction 6:
var(\bar y)=\frac{\sigma^2}{n}=var(\hat \beta_0+\hat \beta_1\bar x) = var(\hat \beta_0)+var (\hat \beta_1)\bar x^2+ 2cov(\hat \beta_0, \hat \beta_1 \bar x)
\frac{\sigma^2}{n}=\frac{\sigma^2}{n}+\frac{2\bar x^2 \sigma^2}{\sum_{i=1}^{n}(x_i-\bar x)^2}+2 \bar x cov(\hat \beta_0, \hat \beta_1)
cov(\hat \beta_0,\hat \beta_1)=-\frac{\bar x \sigma^2}{\sum_{i=1}^{n}(x_i-\bar x)^2}

到目前为止,我们过完了所有的参数相关的统计量。也因为参数是具有统计量的,因此这就暗示了我们估计的参数,实际上也是不确定的。

在说之后的内容之前,我们事先给定一些记号。这些记号已经在《统计学笔记》中出现过,引入它们只是为了方便(而且是大大的方便……)。

Notation 6:
L_{xx} = \sum_{i=1}^{n}(x_i-\bar x)^2,L_{xy} = \sum_{i=1}^{n}(x_i- \bar x)(y_i - \bar y), L_{yy} = \sum_{i=1}^{n}(y_i-\bar y)^2

最佳线性无偏估计(BLUE)

这是关于 \hat \beta_0,\hat \beta_1 的另外一个比较独特的性质。因为它其实是一个大定理,所以我们单独拉了出来。首先还是一样,看看到底这是啥吧。

Definition 1:Best Linear Unbiased Estimation
对于参数 \theta 的一个无偏估计 \hat \theta ,如果对于任何一个它的无偏估计 \tilde \theta ,都有 var(\hat \theta) \le var (\tilde \theta) ,则称 \hat \theta \theta 的最佳线性无偏估计。

那么下面这个大定理要说的就是

Theorem 1:
在G-M条件(回归三大基本假设的第二个)下, \hat \beta_0,\hat \beta_1 是对应的最佳线性无偏估计。

我们证明一下这个结论。

显然我们要关注的重点就是,是否对于任意的一个无偏估计 E(\sum c_iy_i)=\beta_1 ,都会有 var(\sum c_iy_i) \ge var(\hat \beta_1) 。选择使用 \sum_{i=1}^{n} c_iy_i 的形式是因为, \beta_1 的任何一个估计都是 \{y_i\} 的线性组合,我们已经在之前介绍过这个性质。

下面我们做一点推导。

Deduction 7:
E(\sum c_iy_i) = \sum c_iE(y_i) = \sum c_i(\beta_0 + \beta_1x_i)
\sum c_i\beta_0+\sum c_i \beta_1 x_i = \beta_1

我们需要注意的是,第二个式子针对任意的 \beta_0,\beta_1 都需要满足,因此我们可以得到的结论是。

Notation 7:
\sum_{i=1}^{n} c_i = 0
\sum_{i=1}^{n} c_ix_i=1

现在我们来考虑方差,不妨设 \tilde \beta_1 = \sum_{i=1}^{n}c_iy_i ,那么我们显然要对方差做一点变换。为了凸显出两个估计参数之间的差异,我们不妨做一点加减运算。

Deduction 8:
var(\tilde \beta_1)=var(\tilde \beta_1-\hat \beta_1+\hat \beta_1) =var(\tilde \beta_1-\hat \beta_1)+var (\hat \beta_1) + 2 cov(\tilde \beta_1-\hat \beta_1,\hat \beta_1)

显然,如果我们需要得到方差的这个结论,我们只需要考虑 cov(\tilde \beta_1-\hat \beta_1,\hat \beta_1) 的情况就好。

下面,我们主要来推导最后的协方差。

Deduction 9:
cov(\tilde \beta_1-\hat \beta_1,\hat \beta_1) = cov(\tilde \beta_1,\hat \beta_1)-var (\hat \beta_1) = cov(\sum_{i=1}^{n}c_iy_i, \sum_{i=1}^{n}\frac{x_i-\bar x}{L_{xx}}y_i) - \frac{\sigma^2}{L_{xx}}
cov(\sum_{i=1}^{n}c_iy_i, \sum_{i=1}^{n}\frac{x_i-\bar x}{L_{xx}}y_i) = \sum_{i=1}^{n} cov(c_i y_i, \frac{x_i-\bar x}{L_{xx}}y_i) (能放在外面的原因是,每一个 y_i 之间协方差为0)
\sum_{i=1}^{n} cov(c_i y_i, \frac{x_i-\bar x}{L_{xx}}y_i) = \sum_{i=1}^{n} \frac{c_i(x_i-\bar x)}{L_{xx}}\sigma^2=\frac{\sigma^2}{L_{xx}}(\sum_{i=1}^{n}c_ix_i -\bar x\sum_{i=1}^{n}c_i)=\frac{\sigma^2}{L_{xx}}
cov(\tilde \beta_1-\hat \beta_1,\hat \beta_1) = \frac{\sigma^2}{L_{xx}}-\frac{\sigma^2}{L_{xx}}=0

也就是说,我们推导出协方差其实是0。这就说明, var(\tilde \beta_1) =var(\tilde \beta_1-\hat \beta_1)+var (\hat \beta_1) ,而方差又是非负的,于是结论自然就成立了。

通过这些不太显然的性质,相信大家也不难明白为什么线性回归现在依然很火了。另外,请不要在意求和号的一些细节,我只是懒得把上下标打上去了……

小结

这一节是一节相对来说比较偏引入的笔记。因为统计学科相对比较贴近实际,也有很高的实用性,因此大家的阅读难度没有之前的几个专题笔记那么大,并且我也有充分的理由说一大堆的废话……但是因为统计毕竟也算是数学(虽然有的人并不认为它是数学),所以也还是会涉及到一定量的定理和性质。在回归分析中,很多运算的技巧是需要记住的,这些都在笔记中有所体现。

我们之后有可能会补充一些习题作为性质的补充,但是这一节就暂时没有了。

感谢大家的支持~我会继续抽时间去贡献高质量有诚意的创作!

——————————————————广告——————————————————


本专栏为我的个人专栏,也是我学习笔记的主要生产地。 任何笔记都具有著作权,不可随意转载和剽窃

个人微信公众号: cha-diary ,你可以通过它来 有效的快速的 获得最新文章更新的通知。

本人最近在寻找与 数据科学,计算数学,统计 有关的 科研和实习 机会。希望各路大佬神仙如果有看得上我的可以和我联系下~谢谢你们!

专栏目录: 笔记专栏|目录

想要更多方面的知识分享吗?欢迎关注专栏: 一个大学生的日常笔记 。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~

编辑于 2020-08-18 14:15

文章被以下专栏收录