多元正态分布

首先我们知道，标准正态分布的概率密度函数为：

对于一个一般的正态分布X，由，我们可以由“随机变量的变换”得到X的密度函数：

到此，我们讨论的范畴还局限于一元正态分布，我们假设存在随机向量，独立同分布于N(0,1);由相互独立的假设，我们可以知道，其概率分布为

Z的均值为，协方差矩阵为（非对角线元素因为相互独立，协方差为0），即为。

同样，我们进行变换，其中为p维常数向量，为p阶非退化矩阵。由此，得到一般多元正态分布的密度函数、均值、方差；其中均值为u，方差为，记作。其中多元正态分布的密度函数为：

需要注意，以上的结论的假设，多元变量之间相互独立；对于正态分布，如果相关系数（协方差）为0，则相互独立。

线性组合性质 。某组向量服从多元正态分布，把它看作一个个体，则其与常数(向量或矩阵)的线性组合扔服从多元正态分布(维度未必为原始的p)；其与同维度的多元正态分布的个体的线性组合仍服从多元正态分布，且维度仍为p。

对于单个多元正态分布，，则向量或矩阵与的乘积：或满足的分布：或 .

对于多个多元正态分布：，

条件分布 。对于多元正态分布，假设其维度为p，如果已知其中部分维度（比如后p-q维）已知，求剩下未知维度的分布，叫做条件分布。首先，前q维称作，后p-q维称为，如果要求的分布，则第一步要对和进行分割：

之后，可以给出条件分布的计算公式：

偏相关系数 则可以在条件概率分布的基础上进行计算，比如，已经计算出来的条件概率的协方差矩阵为：

则，在已知的情况下，的偏相关系数为：

复相关系数 ，一般用来衡量第一个变量与剩余变量的线性函数的最大相关系数，由于q=1，所以之前的分割符号稍作修改：

然后给出复相关系数的计算：

边际分布 ，是指对于多维随机变量，只包含其中部分变量的概率分布（比如对于p维多元正态分布，其前m个维度的边际分布，为直接忽略后p-m个维度）。比如对于随机变量：

参数估计，即根据样本数据来估计出多元正态分布的分布（均值与协方差矩阵）。分别是的极大似然估计，分别是的无偏估计（期望相等），有效估计（无偏估计中方差最小的）。其中V是样本协方差矩阵，A是样本离差矩阵。离差矩阵的计算如下：

相关系数矩阵的计算是基于离差矩阵A或协方差矩阵的( 是的元素)：

关于离差矩阵的三条性质：1），其中为Wishart分布，Wishart分布是分布的推广，2）与是相互独立的，3)，是正定矩阵的充要条件是。

多元正态分布的假设检验与一元问题的相似，但围绕的重点主要是均值向量的检验（分为与假设值是否相等，两组正态多元分布的均值向量是否相等）。

1.协方差矩阵已知，判断均值向量与假设量是否相等，构造统计量：。

2.协方差矩阵未知，判断均值向量与假设量是否相等，需要通过两步来构造统计量，第一步类似于上式:

其中是Hotelling分布（一般地，对于 )；第二步把hotellling 统计量转换为我们熟悉的F分布：

根据上述hoteling分布，以及转化为F分布的方法可以得出基于的联合置信区域:

其中a是任意的，取无穷，只有理论意义；除了基于联合的置信区域外，还有一种置信区域精度更严格的方法：邦弗伦尼置信区域：

其中为线性组合的数目，同时也为p

3.判断多组多元正态分布的向量均值是否相等（方差分析：原假设）,我们知道，对于一元变量的方差检验，我们通过由SSE,SSA构造F统计量：，对于多元变量，同样有SSE和SS(TR): ，其中为Wilks分布。其又能转化为F分布（这种转换取决于的值）。

Simple regreesion是用来对两个变量进行回归的方法，解释变量是非随机变量，被解释变量是随机变量，可以通过相关系数(Correlation)来表示，两个变量之间的线性关系强弱。

只能用以形容线性关系的强弱，不表示两个变量之间没有相关关系，比如产生的一组系列的r为0，但其存在相关关系。

一元回归的结果是：

在此基础上，我们定义残差(Residual)：

一般我们使用残差最小二乘的结果，来确定一元回归的参数和。这里最小二乘，SSE为Sum of Squared Error；同时，Residual sum of squared是同一个概念。

一般我们用和来表示拟合效果的好坏，其中RMSE依赖于Y的scale，而是无量纲的。下式中 (Total sum of Squares)是样本原始值和样本原始值均值的差平方：

求解参数的方法有多种：比如极大似然估计、贝叶斯估计(最大后验概率)。

对于Exponential family分布，最小二乘法和极大似然法是一样的。，其中 ,通过极大似然估计求解:

Websites zhihu