\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left[\left(X-EX\right)\left(Y-EY\right)\right]}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}} ρ X , Y = σ X σ Y c o v ( X , Y ) = σ X σ Y E [ ( X E X ) ( Y E Y ) ] = E ( X 2 ) E 2 ( X ) E ( Y 2 ) E 2 ( Y ) E ( X Y ) E ( X ) E ( Y )
\operatorname{cov}(X, Y)=\frac{1}{n-1}{\sum_{n}^{i=1}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)} c o v ( X , Y ) = n 1 1 n i = 1 ( X i X ˉ ) ( Y i Y ˉ ) (之所以除以n-1而不是除以n,是因为我们是用样本去估计总体,除n-1才是统计学上的“无偏估计”,这样能使我们以较小的样本集更好的逼近总体的标准差 )

上面的任何一个公式看不懂可以看 这篇博客

将上述公式代入定义中得,
r=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}} r = i = 1 n ( X i X ˉ ) 2 i = 1 n ( Y i Y ˉ ) 2 i = 1 n ( X i X ˉ ) ( Y i Y ˉ )

当计算出相关系数后,可以通过以下取值范围判断变量的相关强度:

|r| 相关强度
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

协方差的定义是从方差而来的, Y ,那么就会使得计算出来的协方差很大,它的值是不可比较的,并不能统一地度量。所以我们需要将其无量纲化(单位化),以消除数值量级差异的影响,于是就引入了皮尔逊相关系数,其在协方差的基础上除以各自的标准差,这样就消除了单位,使得计算出来的值介于-1和1之间,相互之间是可比较的,不用受单位的影响。

其它理解角度:https://www.zhihu.com/question/19734616

如果对你有帮助,请点个赞:-D

一些前置知识,期望、方差、协方差概念及其相关公式参见定义皮尔逊相关系数,简称相关系数,严格来说,应该称为“线性相关系数”。这是因为,相关系数只是刻画了X,Y之间的“线性”关系程度。换句话说,假如X与Y有其它的函数关系但非线性关系时,用相关系数来衡量是不合理的。相关系数定义为:ρX,Y=cov⁡(X,Y)σXσY=E((X−μX)(Y−μY))σXσY=E(XY)−E(X)E(Y)E(X2)−E2(X)E(Y2)−E2(Y)\rho_{X, Y}=\frac{\operatorname{cov}(X, 皮尔逊相关系数 是用来衡量两个变量之间线性相关程度的一个统计量,取值范围为[-1,1]。 当皮尔逊系数值为1时,表示两个变量完全正相关;当皮尔逊系数值为-1时,表示两个变量完全负相关;而当皮尔逊系数值为0时,则表示两个变量之间没有线性相关性。 皮尔逊系数是用来衡量两个变量之间的相关性,但它并不能说明两个变量之间的因果关系。此外,虽然皮尔逊系数可以用来衡量两个变量之间的相关性,但也有其他衡量相关性的统计量,比如斯皮尔曼等级 相关系数
皮尔逊相关系数 皮尔逊相关系数 ( Pearson correlation coefficient,PC),又称皮尔逊积矩 相关系数 (Pearson product-moment correlation coefficient,PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。 相关系数 的绝对值越大,相关度越强, 相关系数 的绝对值越小,相关度越弱。 二、 公式 公式 一:两个变量之间的 皮尔逊相关系数 定义为两个变量之间的 协方差 和标准差的商, 公式 一定义了总体 相关系数
转自:https://blog.csdn.net/AlexMerer/article/details/74908435  https://blog.csdn.net/huangfei711/article/details/78456165  建议查看原文。  最早接触pearson 相关系数 时,是和同学一起搞数学建模,当时也是需要一种方法评价两组数据之间的相关性,于是找到了皮尔森(pearso...
相关是最常用的统计度量。用一个数来描述两个变量之间的相关联的程度。 相关系数 的取值范围为[-1,+1]。负值表示随着一个变量值的增大另一个则减小;正值表示随着一个变量值的增大另一个也跟着增大;0则表示一个变量的增大减小对另一个的取值没有 影响。 三种常用的 相关系数 为: 皮尔逊相关系数 ,斯皮尔曼 相关系数 ,Kendall 相关系数 .本文概要性地介绍 皮尔逊相关系数
在上文一文让你彻底搞懂最小二乘法(超详细推导)中我们提到过,发明最小二乘法的勒让德认为,让误差的平方和最小估计出来的模型是最接近真实情形的(误差=真实值-理论值)。换句话说,勒让德认为最佳的拟合准则是使 yiy_{i}yi​与 f(xi)f(x_{i})f(xi​)的距离的平方和最小,即: L=∑i=1n(yi−f(xi))2L=\sum_{i=1}^{n}(y_{i}-f(x_i))^{2}L=i=1∑n​(yi​−f(xi​))2 这个准则也被称为最小二乘准则。 勒让德在原文中提到:使误差平方和达到最小
为了能够更深刻的 理解 ,这里先梳理一下 概率论 中的几个基本概念。 事件指某种(或某些)情况的“陈述”,通俗来讲,事件就是一些case,比如A事件定义为,掷出偶数点=(2,4,6),这个case包含了多个结果,其中,每个结果叫做一个基本事件,一个事件是由若干基本事件构成的。由此可见,事件的本质是 集合。 有了事件,自然就有事件之间的关系,因为事件的本质是集合,所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系,基本关系有 : 蕴含与相等:如果当A发生时B必发生 ,记A⊂BA\subset B
皮尔逊相关系数 计算 公式 是通过对两个变量的 协方差 除以各自的标准差,从而消除了单位和数值量级的影响。具体 公式 如下所示: r = Cov(X, Y) / (σX * σY) 其中,r代表 皮尔逊相关系数 ,Cov(X, Y)代表X和Y的 协方差 ,σX代表X的标准差,σY代表Y的标准差。这个 公式 可以用来度量两个变量之间的线性关系,其取值范围在-1到1之间,0表示无线性关系,正值表示正相关,负值表示负相关。请注意, 皮尔逊相关系数 只能度量线性关系,不能度量其他非线性关系。
在“矩阵解法”这一小节中的第一个公式 h1=θ0*x1,0 + θ1*x1,1 + θ2*x1,2 ... + θn-1*x1,n-1。 h2~hm同理,都有θ0*xm,0 = θ0*1 所以看做列向量x0=[x1,0 x2,0 x3,0 ... xm,0]每个元素都是1 一文让你彻底搞懂最小二乘法(超详细推导) zzxkk45: 大神太厉害了,跪了 一文让你彻底搞懂最小二乘法(超详细推导) _RMC_: 这个讲解深入浅出,比我们老师讲的好多了 一文让你彻底搞懂最小二乘法(超详细推导) qq_36737674: 最后那里,为什么是a1T*e = 0而不是a1*e = 0 一文让你彻底搞懂最小二乘法(超详细推导) qq_36737674: A转置的几何意义是什么?