首先我觉得学这个分三个步骤,一是笼统了解大概,二是仔细研究推导过程,三则是实际应用。现在是第一部分,大致了解logistics regressions的整个流程
第一部分:
为了较好地掌握 logistic regression 模型,有必要先了解 线性回归模型 和 梯度下降法 两个部分的内容:
• 线性回归 —— Liner Regression
流程导图:
PS:一般情况都是多元线性回归,而核心思路于上面十分相似,但它是对数线性回归。核心的部分就是:假设y的衍生物是 y的对数即lny,那么就可以得到对数线性回归模型: , 也就是让模型 去逼近 lny,而不是y。也可以对lny=wTx+b 做一下变换就变成了 ,也可以理解为让 ewTx+b 去逼近y。形式上还是线性回归的,但实质上已是在求取输入空间到输出空间的非线性函数映射。
• 梯度下降法 —— 经典的优化方法
而梯度下降的核心思想就是下面这幅图,不断执行该过程即可收敛到局部极小点PS:这是对于凸函数才适用
Logistics regression,其实在中文翻译中是叫逻辑斯蒂回归,但这其实是不准确的,按照他真正含义来翻译的话应该叫
对数几率回归
而logistics regression 的本质是
分类学习方法
。理解这一个话十分重要!!!而他的应用层面十分广,而最常用的
是二分类logistics
,其因变量只有两个类别例如:“好”,“不好”等。主要是两大用途:一个是寻找危险因素,例如:寻找艾滋病的危险因素;而另一个就是用在预测,像股票升降预测。
我们再来讨论他名字来源。为什么叫对数几率呢??要引入一个概念
几率(odds其实准确翻译应该叫优势比)
,也就是
这样的形式,而y表示样本X作为正例的可能性,1-Y表示样本X作为反例的可能性。而几率这个概念
则反映了X作为正例的相对可能性
而上面提到的
对数线性回归
,这里也就是把
几率(odds)
丢到对
数线性回归
中,变成
对数几率回归
。而其形式就变成了
。然后我们再导入概率的知识让其变成
然后我们再来导入线性回归模型产生的预测值 。
最终得到了 这样的式子。
其实我们理解完了logistics回归的来源。其实还有一些重点知识没有讲解。也就是这个东西到底是哪个知识点让他起到了
二分类作用
呢。