方差未知,判断一组变量是否等于假设:t检验: (wiki关于方差分析和t检验区别的描述:ANOVA is conceptually similar to multiple two-sample t-tests, but is more conservative (results in less type I error) and is therefore suited to a wide range of practical problems.)

方差相等且未知的两个样本之间:t检验: ,其中

均值已知,判断方差是否与假设相等:卡方检验,

均值未知,判断方差是否与假设相等:卡方检验,

与 未知的两个正态母体,检验其方差是否相等:F检验, ,其中

相关系数:

1. What is multivariate normal distribution?

首先我们知道,标准正态分布的概率密度函数为:

对于一个一般的正态分布X,由 ,我们可以由“随机变量的变换”得到X的密度函数:

到此,我们讨论的范畴还局限于一元正态分布,我们假设存在随机向量 ,独立同分布于N(0,1);由相互独立的假设,我们可以知道 ,其概率分布为

Z的均值为 ,协方差矩阵为 (非对角线元素因为相互独立,协方差为0),即为 。

同样,我们进行变换 ,其中 为p维常数向量, 为p阶非退化矩阵。由此,得到一般多元正态分布的密度函数、均值、方差;其中均值为u,方差为 ,记作 。其中多元正态分布的密度函数为:

需要注意,以上的结论的假设,多元变量之间相互独立;对于正态分布,如果相关系数(协方差)为0,则相互独立。

2. 多元正态分布的性质、参数估计

2.1 多元正态分布的性质

线性组合性质 。某组向量服从多元正态分布,把它看作一个个体,则其与常数(向量或矩阵)的线性组合扔服从多元正态分布(维度未必为原始的p);其与同维度的多元正态分布的个体的线性组合仍服从多元正态分布,且维度仍为p。

对于单个多元正态分布, ,则向量 或矩阵 与 的乘积: 或 满足的分布: 或 .

对于多个多元正态分布: ,

条件分布 。对于多元正态分布,假设其维度为p,如果已知其中部分维度(比如后p-q维)已知,求剩下未知维度的分布,叫做条件分布。首先,前q维称作 ,后p-q维称为 ,如果要求 的分布,则第一步要对 和 进行分割:

之后,可以给出条件分布的计算公式:

偏相关系数 则可以在条件概率分布的基础上进行计算,比如 ,已经计算出来 的条件概率的协方差矩阵为:

则,在 已知的情况下, 的偏相关系数为:

复相关系数 ,一般用来衡量第一个变量与剩余变量的线性函数的最大相关系数,由于q=1,所以之前的分割符号稍作修改:

然后给出复相关系数的计算:

边际分布 ,是指对于多维随机变量,只包含其中部分变量的概率分布(比如对于p维多元正态分布,其前m个维度的边际分布,为直接忽略后p-m个维度)。比如对于随机变量 :

2.2 多元正态分布的参数估计与假设检验

参数估计,即根据样本数据来估计出多元正态分布的分布(均值与协方差矩阵)。 分别是 的极大似然估计, 分别是 的无偏估计(期望相等),有效估计(无偏估计中方差最小的)。其中V是样本协方差矩阵,A是样本离差矩阵。离差矩阵 的计算如下:

相关系数矩阵的计算是基于离差矩阵A或协方差矩阵的( 是 的元素):

关于离差矩阵 的三条性质:1) ,其中 为Wishart分布,Wishart分布是 分布的推广,2) 与 是相互独立的,3), 是正定矩阵的充要条件是 。

多元正态分布的假设检验与一元问题的相似,但围绕的重点主要是均值向量的检验(分为与假设值是否相等,两组正态多元分布的均值向量是否相等)。

1.协方差矩阵 已知,判断均值向量与假设量是否相等,构造 统计量: 。

2.协方差矩阵 未知,判断均值向量与假设量是否相等,需要通过两步来构造统计量,第一步类似于上式:

其中 是Hotelling分布(一般地,对于 );第二步把hotellling 统计量转换为我们熟悉的F分布:

根据上述hoteling分布,以及转化为F分布的方法可以得出基于 的联合置信区域:

其中a是任意的,取无穷,只有理论意义;除了基于联合 的置信区域外,还有一种置信区域精度更严格的方法:邦弗伦尼置信区域:

其中 为线性组合的数目,同时也为p

3.判断多组多元正态分布的向量均值是否相等(方差分析:原假设 ),我们知道,对于一元变量的方差检验,我们通过由SSE,SSA构造F统计量: ,对于多元变量,同样有SSE和SS(TR): ,其中 为Wilks分布。其又能转化为F分布(这种转换取决于 的值)。

3. Linear Regression

3.1 Simple regression

Simple regreesion是用来对两个变量进行回归的方法,解释变量 是非随机变量,被解释变量 是随机变量,可以通过相关系数(Correlation)来表示,两个变量之间的线性关系强弱。

只能用以形容线性关系的强弱, 不表示两个变量之间没有相关关系,比如 产生的一组系列的r为0,但其存在相关关系。

一元回归的结果是:

在此基础上,我们定义残差(Residual):

一般我们使用残差最小二乘的结果,来确定一元回归的参数 和 。这里最小二乘 ,SSE为Sum of Squared Error;同时 ,Residual sum of squared是同一个概念。

一般我们用 和 来表示拟合效果的好坏,其中RMSE依赖于Y的scale,而 是无量纲的。下式中 (Total sum of Squares)是样本原始值和样本原始值均值的差平方:

求解参数的方法有多种:比如极大似然估计、贝叶斯估计(最大后验概率)。

对于Exponential family分布,最小二乘法和极大似然法是一样的。 ,其中 ,通过极大似然估计求解:

Reference

  • Websites zhihu
  •