cs229笔记2-分类与逻辑回归

笔记2:分类与逻辑回归 Classification and logistic regression,对应讲义Note1 Part2 ,对应视频集数3(50)- 4(15)

课程地址:【Andrew Ng】机器学习 吴恩达 中文字幕 (2008版 CS229)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

Logistic regression 逻辑斯蒂回归

logistic function

定义: logistic function or sigmoid function

image-20181118110429904

考虑分类问题的似然函数

image-20181118112229613

由于$\mathscr{L}(\theta) = log L(\theta)$ 求最大值会更加的容易,有:

image-20181118112942995

梯度上升求最大值:

  1. Batch gradient descent

    image-20181118114215190

  2. Stochastic gradient descent

    image-20181118114121458

注:虽然这个公式与之前 Linear Regression基于最小二乘的梯度下降表面上相同,但是其中的$ h_\theta (x)$ 并非连续函数,而是一个关于 logsitc funciton的二值函数 $y \in \{0,1\}$ 。 即使它们表面上相似,实际上是两种不同的学习算法。这是一种通用的学习模型,实际上会以一种看起来相同的学习算法结束,这并不是一个巧合。

Newton‘s method 牛顿法求极值

一维函数牛顿法

首先考虑 求解$f(\theta) = 0 $ 的问题,牛顿法如下:

image-20181118135839554

回到$l(\theta)$,求$l(\theta)$ 的极值,根据极值点的性质 $l’(\theta) = 0$,得:

通过迭代,我们就可以得到一个局部最优值。

注:事实证明牛顿法是一个收敛很快的算法——二次收敛

一般化牛顿法——多维

现在考虑多维情况下一般化牛顿法。

相比梯度下降方法,一般情况下,牛顿法的收敛速度会快很多。

缺点是

  1. 每一次迭代都需要重新计算海森矩阵的逆,海森矩阵大小为n x n(n是特征的数量),如果特征过多,则运算量非常巨大

  2. 在非凸优化问题中(如神经网络训练),牛顿法很容易陷入鞍点(牛顿法步长会越来越小),而梯度下降法则很容易逃离鞍点(因此在神经网络训练中一般使用梯度下降法,高维空间的神经网络中存在大量鞍点)