cs229笔记3-广义线性模型

笔记3:广义线性模型 Generalized Linear Models,对应讲义Note1 Part3 ,对应视频集数4(15)- 4

课程地址:【Andrew Ng】机器学习 吴恩达 中文字幕 (2008版 CS229)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

The exponential family 指数分布族

image-20181118155148953

$ \eta $ 为分布的自然参数,$T(y)$ 为充分统计量(通常,如高斯分布,伯努利分布,T(y) = y)。

Bernoulli distribution伯努利分布

image-20181118193656705

根据上式有

注:可以发现$\phi$ 的表达式和logistic 函数相同。

Gaussian distribution高斯分布

考虑高斯分布,为了方便,不考虑$\sigma$

image-20181118195832151

image-20181118195926018

总结

不仅Bernoulli distribution,Gaussian distribution属于指数分布族,实际上多项式分布、柏松分布、伽马分布、指数分布也属于指数分布族

Constructing GLMs 构造广义线性模型

本小节主要介绍选定了指数分布族后,如何构造GLM,并使用。

假设

image-20181118202545419

例子:Bernoulli

image-20181118203017936

构造广义线性模型的意义

这样构造广义线性模型的意义在于便利性。当你遇到一个新的{0,1}分类问题的时候,唯一需要做的决策就是:选择假设 $ y|x,\theta $ 服从什么分布 。无论面临任何问题,选择一种指数分布族中的分布,之后遵从相同的规则,就可以得到一个不同的模型和不同学习算法,得到一个不同的广义线性模型。

Canonical response function正则响应函数

一些术语,不做过多介绍。

Softmax regression/Multinomial 🌟多项式分布

这是一个重要的例子。当分类问题有k类时, $y\in \{ 1,\dots,k \}​$,由于参数 $\phi_{k-1} = 1-\sum_{i=1}^{k-1} \phi_i​$,故$\phi_{k-1}​$ 是冗余参数,则假设参数从 $\phi_1,\dots,\phi_{k-1}​$

image-20181118205821958

接下来定义$T(y)$

image-20181118210418231

引入符号——指示函数

则T(y)可以表示为一个简单的公式

利用exponnetial family

image-20181118211306152

image-20181118211359687

过程略,之后有

image-20181118212341741

代入,得下式(注意\sum 的上标是k还是k-1,之间可以根据上式互相转换)

image-20181118212505792

现在考虑根据$h_\theta$ 求参数$\theta$,还是最大似然函数法:

image-20181118213214794

这个算法被称为Softmax regression,被普遍认为是逻辑回归的推广,可以处理k类分类问题。