Logistics回归:第一部分

首先我觉得学这个分三个步骤,一是笼统了解大概,二是仔细研究推导过程,三则是实际应用。现在是第一部分,大致了解logistics regressions的整个流程

第一部分:
为了较好地掌握 logistic regression 模型,有必要先了解 线性回归模型 和 梯度下降法 两个部分的内容:

• 线性回归 —— Liner Regression

流程导图:
在这里插入图片描述
PS:一般情况都是多元线性回归,而核心思路于上面十分相似,但它是对数线性回归。核心的部分就是:假设y的衍生物是 y的对数即lny,那么就可以得到对数线性回归模型: , 也就是让模型 去逼近 lny,而不是y。也可以对lny=wTx+b 做一下变换就变成了 ,也可以理解为让 ewTx+b 去逼近y。形式上还是线性回归的,但实质上已是在求取输入空间到输出空间的非线性函数映射。
在这里插入图片描述
• 梯度下降法 —— 经典的优化方法
而梯度下降的核心思想就是下面这幅图,不断执行该过程即可收敛到局部极小点PS:这是对于凸函数才适用

接下来就正式讲logistics regression:

Logistics regression,其实在中文翻译中是叫逻辑斯蒂回归,但这其实是不准确的,按照他真正含义来翻译的话应该叫 对数几率回归

而logistics regression 的本质是 分类学习方法 。理解这一个话十分重要!!!而他的应用层面十分广,而最常用的 是二分类logistics ,其因变量只有两个类别例如:“好”,“不好”等。主要是两大用途:一个是寻找危险因素,例如:寻找艾滋病的危险因素;而另一个就是用在预测,像股票升降预测。

我们再来讨论他名字来源。为什么叫对数几率呢??要引入一个概念 几率(odds其实准确翻译应该叫优势比) ,也就是 在这里插入图片描述 这样的形式,而y表示样本X作为正例的可能性,1-Y表示样本X作为反例的可能性。而几率这个概念 则反映了X作为正例的相对可能性

而上面提到的 对数线性回归 ,这里也就是把 几率(odds) 丢到对 数线性回归 中,变成 对数几率回归 。而其形式就变成了 在这里插入图片描述 。然后我们再导入概率的知识让其变成 在这里插入图片描述
然后我们再来导入线性回归模型产生的预测值 。
最终得到了 这样的式子。 在这里插入图片描述

其实我们理解完了logistics回归的来源。其实还有一些重点知识没有讲解。也就是这个东西到底是哪个知识点让他起到了 二分类作用 呢。

SIGMOD函数:

其中 是线性回归模型,产生得实值我们要将其转化为0或1进行分类,sigmoid函数正好具备这样的能力。也就是把线性回归模型放到SIGMOD函数中进行 压缩 ,也就是下图所示:
在这里插入图片描述
我们就可以理解为当他>0.5的时候返回1,而<0.5的时候就返回0,这样就达到了二分类的作用。

我们理解了logistics函数后,接下来我们来讲讲到底如何来用这个东西来进行运算求出最终想到的模型
上面我们得到了 这个式子,那么很显然就分别有下面两个式子:
在这里插入图片描述
于是我们就可以通过极大似然发来估算w和b(这也是最终目的)。这里其实可以分为两个方法:一用上面说的线性回归里面的损失函数的方法。其思路其实是一样的。但是要注意,原本的损失函数在实际操作过程中是这样的:
在这里插入图片描述
使用梯度下降法求取极值很容易陷入到局部最优,而无法达到全局最优。因此要改变损失函数,然后再用梯度下降来逼近w和b。这里具体方法和推导过程就不进行阐述。而第二种方法,用的是“极大似然发”同样也是用梯度下降或拟牛顿法来逼近。

下次再来详细推导损失函数和梯度下降法来逼近w和b,还有极大似然法

最后再来总结一下流程:
在这里插入图片描述
在这里插入图片描述

Logistics回归:第一部分首先我觉得学这个分三个步骤,一是笼统了解大概,二是仔细研究推导过程,三则是实际应用。第一部分:为了较好地掌握 logistic regression 模型,有必要先了解 线性回归模型 和 梯度下降法 两个部分的内容:• 线性回归 —— Liner Regression流程导图:PS:一般情况都是多元线性回归,而核心思路于上面十分相似,但它是对数线性回归...
一、如何处理输入数据? 1、训练集的处理 对图片进行读取,得到相应的像素矩阵,假设为m×nm\times nm×n大小,如果为彩色图片则一张图片有m×n×3m\times n\times 3m×n×3个特征用一个列向量表示:$x^{(1)} $ 例如,某张图片的像素矩阵为: [123456789] \left[ \begin{matrix} 1 &amp;amp;amp; 2 &amp;amp;amp; 3 \\...
Logistic 回归 分析用于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据,也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使用相应的数据分析方法。 如果Y有两个选项,如愿意和不愿意、是和否,那么应该使用有序 logistic 回归 分析(SPSSAU进阶方法->二.. Logistic 映射,又称单峰映象,是一个二次多项式映射(递归关系),经常作为典型范例来说明复杂的混沌现象是如何从非常简单的非线性动力学方程中产生的。生物学家罗伯特·梅 Robert May [1]在1976年的一篇论文中推广了这一映射,它在一定 程度 上是一个时间离散的人口统计模型,类似于皮埃尔·弗朗索瓦·韦胡斯特 Pierre Francois Verhulst 首次提出的方程。 Logistic 映射的数学表达式表示为:其中,t为迭代时间步,对于任意的t,x(t)∈[0,1],μ为一可调参数,为了保 在看论文时看到了这个概念,于是就去简单了解了一下。 谈到 Logistic 映射就要先谈一谈什么是混沌系统。百度百科上的解释是,混沌系统是指在一个确定性系统中,存在着貌似随机的不规则运动,其行为表现为不确定性、不可重复、不可预测,这就是混沌现象。混沌是非线性动力系统的固有特性,是非线性系统普遍存在的现象。 最耳熟能详的混乱现象莫过于蝴蝶效应。这是美国气象学家爱德华·洛伦兹(Edward N.Lorenz)于1963年在一篇提交纽约科学院的论文提到的一种现象。简单来说,对于一个 1.Sigmoid函数(还有一些类似作用的函数Tan....)主要利用它的函数性质 值域在(0~1) 2.首先理解一下logsitic的主要干什么,主要是对现有的data做一个分割线,来完成分类。 3.分割线的位置就是参数的计算,就涉及到参数最优化; 4.下面的是目标函数(不是Loss...
微信公众号:数据挖掘与分析学习 逻辑 回归 ( Logistic Regression)是一种借鉴统计领域的 机器学习 技术。它是二类分类问题的首选方法。在这篇文章中,您将发现用于 机器学习 的逻辑 回归 算法。在读完这篇文章后,您将了解到: 描述逻辑 回归 时的许多专有名称和术语(如 log odds和logit)。 逻辑 回归 模型中的表达式。 用于从数据中学习逻辑 回归 模型系数的技术。 如何使用学习好的逻辑回...
什么是分类问题? 在学习线性 回归 的时候,我们已经理解了什么是 回归 回归 就是确定变量之间相互依赖的定量关系的统计学方法。那么同样,在开始学习 Logistic 回归 模型前,我们先来看看什么是分类问题。 分类相比于 回归 要好理解得多了,我们按照所选取的样本的属性、特征对数据集的样本进行类别的划分,这就是分类。 这里使用二分类举个例子。 上图对四个样本...