如何理解线性回归中的“回归”,回归到哪里?先看看线性回归的英文regression towards the mean。mean在英文中是平均值的意思。
那么平均值又怎么理解呢?个人觉得如果能和另外几个值联合起来思考更有助于理解。它们是——真实值、测量值。
就是一个物体的真实的值。比如桌面的长度的真实值。真实值有什么特点呢?
1、真实值确定存在,比如桌子的长度一定存在一个值。
2、人类永远无法得到真实值,这个比较难以理解了,为什么无法得到真实值,还是永远呢?——因为误差永远存在,无论使用多么精密的测量仪器,无论测量者多么认真仔细,无论测量多少次,误差用用存在,人类永远无法得到真实值。(你要有点哲学思维才能理解)
测量值就是人类测量桌面长度得到的值,上面说过,测量值由于误差的存在,一定不等于真实值。
通俗的理解就是多次测量结果求算术平均数的平均值。那么平均值和真实值之间是什么关系呢?个人理解如下:
1、在有限次测量次数的前提下,平均值永远不会等于真实值
2、当测量次数增加的前提下,平均值会接近真实值
3、当测量次数达到无穷
∞
∞
的时候,平均值等于真实值
1和2都很好理解,因为误差的存在导致的。
那么3为什么当测量次数达到
∞
∞
的时候,平均值等于真实值呢?因为当测量次数达到无限的话,无限次的测量中每次测量产生的误差之间最终会相互抵消。举例说明:用尺子测量桌面的长度会受到温度的影响,因为温度会使尺子热胀冷缩而产生误差。那么我们来做一次假设:
有一张桌子,桌面的真实长度是20cm,即真实值是200mm
假设某一次测量的时候温度高,尺子热胀了,那么测量值就比真实值小了。再假设第二次测量的时候温度又低了,尺子冷缩了,那么测量值就比真实值大了。那么两次测量的误差就抵消了。
但是可能没有完全抵消。比如第一次热涨的时候测小了10mm,测量值是190mm,冷缩的时候测大了8mm,测量值是208mm,那么平均值是(190+208)/2=199mm,这个值不等于真实值。那么我们多测量几次呢?有可能每一次测量的误差相互抵消的越来越小,也就越来越接近真实值。那么什么时候等于真实值呢?只有等测量次数达到
∞
∞
的时候,每次测量的误差可以完全抵消,这是平均值一定等于真实值。
但是这不和上面所说的人类永远无法得到真实值相矛盾吗?不矛盾,因为人类、凡人永远无法做到
∞
∞
,
∞
∞
的特点有两个:
1、你可以无限接近
∞
∞
2、你永远无法达到
∞
∞
由于第二点的存在,人类永远无法做到测量
∞
∞
次,那么人类永远无法得到物体的真实值。
那么回到题目,到底什么是回归,回归到哪里?就是回归到真实值,或者叫回归到事物的本质。
上面说过,当测量次数越多的时候,平均值越接近真实值,这也说明了为什么必须要
大数据
才行。当数据量足够大的时候,我们得到的均值越接近事物的本质——真实值,也就是说线性回归方程就是回归到事物的本质——真实值。
平均值与回归方程之间的关系
可能有人看不出求平均值的公式和回归方程公式有什么关系,因为这两个公式表面上看上去确实长得不像。
求算术平均值公式:
x
1
+
x
2
+
x
3
+
…
.
.
+
x
n
n
x 1 + x 2 + x 3 + … . . + x n n
回归方程公式:
y =
w
0
w 0
+
w
1
w 1
x
1
x 1
+
w
2
w 2
x
代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
线性回归
代码代码 多元
今天我就简单谈谈自己的一些新想法。我们从最基本的容易引起歧义的地方出发。很多人问我,
回归
(regression)和拟合(fitting)有什么不同?其实如果你想从数学的角度去区分它们,你就出不来了。知识往往都有“先入为主”的那种影响。我们接触的第一类
回归
问题,就是简单
线性回归
,或者多项式
回归
,而这恰恰和我们接触的拟合问题“天然地相似”:最小二乘法求解参数。因此,那些数学出身的学生,就始终很难将这两...
数据挖掘有两大主题分别是
回归
和分类,接下来我们需要对每一种分类、
回归
算法进行学习和总结,这篇文章是我学习了最简单的
回归
和分类算法基础上总结出的个人经验,希望大家多多指教有什么不对可以提出来。
一、什么是
线性回归
要
理解
这个名词含义那么就要分别
理解
什么是线性和
回归
:
线性:变量之间的关系是一次函数关系,如y=x+1那么x和y的关系就是线性关系。相反
中
x与y的关系就是非线性。
回归
:最简单的理...
0 什么是
回归
?
假设
线性回归
是个黑盒子,那按照程序员的思维来说,这个黑盒子就是个函数,然后呢,我们只要往这个函数传一些参数作为输入,就能得到一个结果作为输出。那
回归
是什么意思呢?其实说白了,就是这个黑盒子输出的结果是个连续的值。如果输出不是个连续值而是个离散值那就叫分类。那什么叫做连续值呢?非常简单,举个栗子:比如我告诉你我这里有间房子,这间房子有40平,在地铁口,然后你来猜一猜我的房子总共值...
1.
线性回归
假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。
收集的数据
中
,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数,向量表示形
“
回归
”即是:“靠拢” 的意思
回归
方程: 往往是一个函数曲线,说白了就是:数据点有靠拢趋势的曲线。
回归
分析:确定因变量与自变量之间是否存在相互依赖关系,说白了,有没有这样一个曲线,是坐标点有向它靠拢趋势的。
回归
一词的来源
回归
分析法是由著名的英国人类学家、统计学家高尔顿(F.Galton,1882~1911)所创立的。早年,高尔顿曾致力于化学和遗传学领域的研究,他在研究英国人
中
父子身高之间的关系时创立了
回归
分析法。
1889年,高尔顿和他的学生、现代统计学奠基人之一的皮尔逊(Pearson
什么是 “线性” ?
越是基础的概念,越应该有一个透彻的
理解
,才能对上层问题有直接了当的
理解
。比如 对线性分割器,你对线性有透彻的
理解
,一看这个名字就大概知道它是怎么回事了。
直观
理解
:线性关系 是 直线关系
现在你可以想象一条曲线 S,它可以是直的也可以是弯的,然后你得承认一个事实:曲线 S 上的任意一点,都可以由曲线 S 上其他的任意一点沿着曲线 移动 而来。
然后我们来看这个 移动。在二维坐标平面,移动就意味着横坐标轴和纵坐标轴的变化,如果两者的变化成一个倍数关系,即横坐标变化了2,纵坐标就变化了6;
1、
线性回归
概念
机器学习
中
的两个常见的问题:
回归
任务和分类任务。那什么是
回归
任务和分类任务呢?简单的来说,在监督学习
中
(也就是有标签的数据
中
),标签值为连续值时是
回归
任务,标志值是离散值时是分类任务。而
线性回归
模型就是处理
回归
任务的最基础的模型。
线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性;
非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非...
LinearRegression(
线性回归
)
回归
是一种解题的方法,或者说是“学习的方法”,也是机器学习
中
比较重要的概念。
回归
一词的英文是Regression,单词原型regress大概的意思是“回退,倒退,退化”。 其实Regression
回归
分析的意思借用了这么一层含义,是由果索因的过程,是一种归 纳的思想。当看到大量的事实所呈现的状态,推断出原因是如何的;当看到大量的数 字的时候,推断出他...
数据的维度:即数据含有参数的个数,描述一个对象所需要的参数个数,这样一组数据构成一个多维数据,如一个空间坐标(1,2),一个空间向量[1,2,3]。
对线性的
理解
:线性即均匀分布,对加法有意义,如数轴上的数。线性函数的特点输入值均匀排列,输出值均匀排列,在线性代数里,线性函数是一个线性映射,输入与输出在相同域的向量空间上维持向量加法与标量乘法。线性代数
中
,线性变换处理的输入输出数据维度是任意的(与初级代数最明显的区别)。
在线代的观点里,空间
中
的每一个值都是通过单位向量(基向量)拉伸来的,一维
1. 多元
线性回归
(解释性
回归
与预测性
回归
) 2. Stata对数据描述性统计 3. 对横截面数据进行Stata
回归
4. Stata标准化
回归
4.
回归
前需要进行扰动项的检测