cs229笔记1-线性回归

笔记1:线性回归 Linear Regression,对应讲义Note1 Part1,对应视频集数2-3(50min)

课程地址:【Andrew Ng】机器学习 吴恩达 中文字幕 (2008版 CS229)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

Ordinary least squares regression model 最小二乘法回归模型

Represent funciton/Hypotheses

Cost funciton

注:

  • $(x^{(i)},y^{(i)})$ 为样本对
  • 系数 $1\over2$ 含义:简化之后的计算

LMS(Least mean squares) update rule 最小均方

不断变化 $\theta$ 以减小$J(\theta)$

Batch gradient descent 批梯度下降

image-20181111131932733

每次循环都要处理所有(或一个部分)的样本数据,直到收敛。

缺点:速度慢

Stochastic gradient descent 随机梯度下降

image-20181111143631107

所有的 $\theta_j$ 每次更新仅使用第 $i$ 个样本,无需遍历所有样本。使用完全部样本后(for循环一遍)判断收敛,进入下一个loop.

特性:速度快,但是不会精确收敛到全局最小值。

Normal equations 正规方程

Matrix derivatives

image-20181111144828090

Trace 迹

image-20181111145221756

image-20181111151329775

用上述符号重新表达最小二乘法

Cost function:

image-20181111150739427

image-20181111151353958

则得到了Normal equations

image-20181111162526765

Locally weighted regression(LWR) 局部加权回归

我们先考虑普通的线性回归问题(房价):参数 $\theta_i$ 的个数选择会导致欠拟合underfitting,过拟合overfitting

image-20181111164115719

参数学习算法和非参数学习算法

image-20181111174726908

LWR

LWR是一个非参数算法,对于LWR,根据需要预测的点x,加入权重函数:

image-20181111171901990

拟合方法如下图:可以看出,对于一个点x,我们需要遍历整个样本来求得 $\theta$ ,我们会得到一条拟合x附件的一个区域的局部拟合直线。

image-20181111172035271

由此,对于x轴上的所有x都做一次LWR,并且取预测出的y作为函数值,我们可以得到一条近似的曲线。

image-20181111173226872

当然,这个拟合的好坏也是取决于 $\tau$ 的,所以LWR并不能避免underfitting/overfitting的问题。

Probabilistic interpretation 线性回归的概率解释

运用极大似然估计 maximum likelihood

假设误差项 $\epsilon^{i}$ 与高斯分布正相关,则:

image-20181112104526808

image-20181112104709557

将 概率视为 $\theta$ 的函数——似然函数 $L(\theta)$ :

image-20181112104919226

image-20181112104929098

求$L(\theta)$ 的极大似然估计相当于求 log likelihood

image-20181112105341833

最大化log likelihood也相当于最小化损失函数 $J(\theta)$

image-20181112105301489