深度之眼西瓜书——线性模型笔记

1. 一元线性回归

1.1. 由最小二乘法导出损失函数 $E(w, b)$
1.2. 证明损失函数

1.2.1. 二元函数判断凹凸性：
1.2.2. 二元凹凸函数求最值：
1.2.3. 证明

1.3. 分别对损失函数 $E(w, b)$ 关于 $b$ 和 $w$ 求一阶偏导数
1.4. 令各自的一阶偏导数等于0解出 $b$ 和 $w$

2. 二元线性回归

2.1. 将 $w$ 和 $b$ 组合成 $\hat{w}$
2.2. 由最小二乘法导出损失函数 $E_{\hat{w}}$
2.3. 证明损失函数 $E_{\hat{w}}$ 是关于 $\hat{w}$ 的凸函数
2.4. 对损失函数 $E_{\hat{w}}$ 关于 $\hat{w}$ 求一阶偏导数
2.5. 令一阶偏导数等于0解出 $\hat{w}^{*}$

3. 广义线性模型

3.1. 指数族分布
3.2. 广义线性模型的三条假设

4. 对数几率回归

4.1. 对数几率回归的广义线性模型推导
4.2. 极大似然估计法
4.3. 对数几率回归的参数估计

线性模型

Lei_ZM
2019-09-10

1. 一元线性回归

求解偏置 $b$ 和权重 $w$ 推导思路

由最小二乘法导出损失函数 $E(w, b)$
证明损失函数
分别对损失函数 $E(w, b)$ 关于 $b$ 和 $w$ 求一阶偏导数
令各自的一阶偏导数等于0解出 $b$ 和 $w$

1.1. 由最小二乘法导出损失函数 $E(w, b)$

$\begin{aligned} E_{(w, b)} &=\sum_{i=1}^{m}\left(y_{i}-f\left(x_{i}\right)\right)^{2} \\ &=\sum_{i=1}^{m}\left(y_{i}-\left(w x_{i}+b\right)\right)^{2} \\ &=\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2} \end{aligned} \tag{西瓜书式3.4}$

1.2. 证明损失函数

1.2.1. 二元函数判断凹凸性：

设 $f(x, y)$ 在区域 $D$ 上具有二阶连续偏导数，记 $A=f_{x x}^{\prime \prime}(x, y)$ ， $B=f_{x y}^{\prime \prime}(x, y)$ ， $C=f_{y y}^{\prime \prime}(x, y)$ 。则：

在 $D$ 上恒有 $A>0$ ，且 $AC-B^{2}\geq 0$ 时， $f(x, y)$ 在区域 $D$ 上是凸函数
在 $D$ 上恒有 $A<0$ ，且 $AC-B^{2}\geq 0$ 时， $f(x, y)$ 在区域 $D$ 上是凹函数

1.2.2. 二元凹凸函数求最值：

设 $f(x, y)$ 是在开区域 $D$ 内具有连续偏导数的凸（或者凹）函数， $(x_{0}, y_{0})\in D$ ，且 $f_{x}^{\prime}(x_{0}, y_{0})=0$ ， $f_{y}^{\prime}(x_{0}, y_{0})=0$ ，则 $f(x_{0}, y_{0})$ 必为 $f(x, y)$ 在 $D$ 内的最小值（或最大值）。

1.2.3. 证明

证明损失函数 $E(w, b)$ 是关于 $w$ 和 $b$ 的凸函数——求 $A=f_{xx}^{\prime \prime}(x, y)$ ：

$\begin{aligned} \frac{\partial E_{(w, b)}}{\partial w} &=\frac{\partial}{\partial w}\left[\sum_{i=1}^{m}\left(y_{i}-\left(w x_{i}+b\right)\right)^{2}\right] \\ &=\sum_{i=1}^{m} \frac{\partial}{\partial w}\left(y_{i}-w x_{i}-b\right)^{2} \\ &=\sum_{i=1}^{m} 2 \cdot\left(y_{i}-w x_{i}-b\right) \cdot\left(-x_{i}\right) \\ &=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) \end{aligned} \tag{西瓜书式3.5}$

故有：

$\begin{aligned} \frac{\partial^{2} E_{(w, b)}}{\partial w^{2}} &=\frac{\partial}{\partial w}\left(\frac{\partial E_{(w, b)}}{\partial w}\right) \\ &=\frac{\partial}{\partial w}\left[2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)\right] \\ &=\frac{\partial}{\partial w}\left[2 w \sum_{i=1}^{m} x_{i}^{2}\right] \\ &=2 \sum_{i=1}^{m} x_{i}^{2} \end{aligned}$

此式即为 $A=f_{xx}^{\prime \prime}(x, y)$ 。

证明损失函数 $E(w, b)$ 是关于 $w$ 和 $b$ 的凸函数——求 $B=f_{xy}^{\prime \prime}(x, y)$ ：

$\begin{aligned} \frac{\partial^{2} E_{(w, b)}}{\partial w \partial b} &=\frac{\partial}{\partial b}\left(\frac{\partial E_{(w, b)}}{\partial w}\right) \\ &=\frac{\partial}{\partial b}\left[2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)\right] \\ &=\frac{\partial}{\partial b}\left[-2 \sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right] \\ &=\frac{\partial}{\partial b}\left(-2 \sum_{i=1}^{m} y_{i} x_{i}+2 \sum_{i=1}^{m} b x_{i}\right) \\ &=\frac{\partial}{\partial b}\left(2 \sum_{i=1}^{m} b x_{i}\right) \\ &=2 \sum_{i=1}^{m} x_{i} \end{aligned}$

此式即为 $B=f_{xy}^{\prime \prime}(x, y)$ 。

证明损失函数 $E(w, b)$ 是关于 $w$ 和 $b$ 的凸函数——求 $C=f_{yy}^{\prime \prime}(x, y)$ ：

$\begin{aligned} \frac{\partial E_{(w, b)}}{\partial b} &=\frac{\partial}{\partial b}\left[\sum_{i=1}^{m}\left(y_{i}-\left(w x_{i}+b\right)\right)^{2}\right] \\ &=\sum_{i=1}^{m} \frac{\partial}{\partial b}\left(y_{i}-w x_{i}-b\right)^{2} \\ &=\sum_{i=1}^{m} 2 \cdot\left(y_{i}-w x_{i}-b\right) \cdot(-1) \\ &=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right) \end{aligned} \tag{西瓜书式3.6}$

故有：

$\begin{aligned} \frac{\partial^{2} E_{(w, b)}}{\partial b^{2}} &=\frac{\partial}{\partial b}\left(\frac{\partial E_{(w, b)}}{\partial b}\right) \\ &=\frac{\partial}{\partial b}\left[2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right)\right] \\ &=\frac{\partial}{\partial b}(2 m b) \\ &=2 m \end{aligned}$

此式即为 $C=f_{yy}^{\prime \prime}(x, y)$ 。

综上所述，有：

$\left\{ \begin{aligned} &A=f_{xx}^{\prime \prime}(x, y)=2 \sum_{i=1}^{m} x_{i}^{2} \\ &B=f_{xy}^{\prime \prime}(x, y)=2 \sum_{i=1}^{m} x_{i} \\ &C=f_{yy}^{\prime \prime}(x, y)=2 m \end{aligned} \right.$

所以：

$\begin{aligned} A C-B^{2} &=2 m \cdot 2 \sum_{i=1}^{m} x_{i}^{2}-\left(2 \sum_{i=1}^{m} x_{i}\right)^{2} \\ &=4 m \sum_{i=1}^{m} x_{i}^{2}-4\left(\sum_{i=1}^{m} x_{i}\right)^{2} \\ &=4 m \sum_{i=1}^{m} x_{i}^{2}-4 \cdot m \cdot \frac{1}{m} \cdot\left(\sum_{i=1}^{m} x_{i}\right)^{2} \\ &=4 m \sum_{i=1}^{m} x_{i}^{2}-4 m \cdot \bar{x} \cdot \sum_{i=1}^{m} x_{i} \\ &=4 m\left(\sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m} x_{i} \bar{x}\right) \\ &=4 m \sum_{i=1}^{m}\left(x_{i}^{2}-x_{i} \bar{x}\right) \\ &=4 m \sum_{i=1}^{m}\left(x_{i}^{2}-x_{i} \bar{x}-x_{i} \bar{x}+x_{i} \bar{x}\right) \\ &\qquad \sum_{i=1}^{m} x_{i} \bar{x}=\bar{x} \sum_{i=1}^{m} x_{i}=\bar{x} \cdot m \cdot \frac{1}{m} \cdot \sum_{i=1}^{m} x_{i}=m \bar{x}^{2}=\sum_{i=1}^{m} \bar{x}^{2} \\ &=4 m \sum_{i=1}^{m}\left(x_{i}^{2}-x_{i} \bar{x}-x_{i} \bar{x}+\bar{x}^{2}\right) \\ &=4 m \sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2} \end{aligned}$ AC−B2=2m⋅2i=1∑mxi2−(2i=1∑mxi)2=4mi=1∑mxi2−4(i=1∑mxi)2=4mi=1∑mxi2−4⋅m⋅m1⋅(i=1∑mxi)2=4mi=1∑mxi2−4m⋅xˉ⋅i=1∑mxi=4m(i=1∑mxi2−i=1∑mxixˉ)=4mi=1∑m(xi2−xixˉ)=4mi=1∑m(xi2−xixˉ−xixˉ+xixˉ)i=1∑mxixˉ=xˉi=1∑mxi=xˉ⋅m⋅m1⋅i=1∑mxi=mxˉ2=i=1∑mxˉ2=4mi=1∑m(xi2−xixˉ−xixˉ+xˉ2)=4mi=1∑m(xi−xˉ)2

故有：

$AC-B^{2} = 4 m \sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2} \geq 0$

也即损失函数 $E(w, b)$ 是关于 $w$ 和 $b$ 的凸函数，得证！

1.3. 分别对损失函数 $E(w, b)$ 关于 $b$ 和 $w$ 求一阶偏导数

损失函数 $E(w, b)$ 关于 $b$ 求一阶偏导数：

损失函数 $E(w, b)$ 关于 $w$ 求一阶偏导数：

1.4. 令各自的一阶偏导数等于0解出 $b$ 和 $w$

令损失函数 $E(w, b)$ 关于 $b$ 的一阶偏导数等于0解出 $b$ ：

$\begin{aligned} \frac{\partial E_{(w, b)}}{\partial b} &=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right) =0 \\ &\Rightarrow m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)=0 \\ & \begin{aligned} \Rightarrow b&=\frac{1}{m}\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right) \\ &=\frac{1}{m}\sum_{i=1}^{m} y_{i} - w \frac{1}{m}\sum_{i=1}^{m} x_{i} \\ &=\bar{y}-w\bar{x} \end{aligned} \end{aligned} \tag{西瓜书式3.8}$

令损失函数 $E(w, b)$ 关于 $w$ 的一阶偏导数等于0解出 $w$ ：

$\begin{aligned} \frac{\partial E_{(w, b)}}{\partial w} &=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) =0 \\ &\Rightarrow w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}=0 \\ &\Rightarrow w \sum_{i=1}^{m} x_{i}^{2} = \sum_{i=1}^{m}y_{i} x_{i} - \sum_{i=1}^{m} b x_{i} \\ &\qquad b=\bar{y}-w\bar{x} \\ &\Rightarrow w \sum_{i=1}^{m} x_{i}^{2}=\sum_{i=1}^{m} y_{i} x_{i}-\sum_{i=1}^{m}(\bar{y}-w \bar{x}) x_{i} \\ &\Rightarrow w \sum_{i=1}^{m} x_{i}^{2} =\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i}+w \bar{x} \sum_{i=1}^{m} x_{i} \\ &\Rightarrow w \sum_{i=1}^{m} x_{i}^{2}-w \bar{x} \sum_{i=1}^{m} x_{i}=\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i} \\ &\Rightarrow w\left(\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}\right)=\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i} \\ &\begin{aligned} \Rightarrow w &= \frac{\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i}}{\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}} \\ &\qquad \bar{y} \sum_{i=1}^{m} x_{i} = \frac{1}{m}\sum_{i=1}^{m} y_{i} \sum_{i=1}^{m} x_{i} = \bar{x} \sum_{i=1}^{m} y_{i} \\ &\qquad \bar{x}\sum_{i=1}^{m} x_{i} = \frac{1}{m}\sum_{i=1}^{m} x_{i} \sum_{i=1}^{m} x_{i} = \frac{1}{m} \left(\sum_{i=1}^{m} x_{i}\right)^{2} \\ &=\frac{\sum_{i=1}^{m} y_{i} x_{i}-\bar{x} \sum_{i=1}^{m} y_{i}}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}} \\ &=\frac{\sum_{i=1}^{m} y_{i}\left(x_{i}-\bar{x}\right)}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}}‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎‪‫‫‌‬‎‮‌‌‫⁠‌ \end{aligned}‏‌‎‬‎‪‍‭‎ \end{aligned} \tag{西瓜书式3.7}$ ∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)=0⇒wi=1∑mxi2−i=1∑m(yi−b)xi=0⇒wi=1∑mxi2=i=1∑myixi−i=1∑mbxib=yˉ−wxˉ⇒wi=1∑mxi2=i=1∑myixi−i=1∑m(yˉ−wxˉ)xi⇒wi=1∑mxi2=i=1∑myixi−yˉi=1∑mxi+wxˉi=1∑mxi⇒wi=1∑mxi2−wxˉi=1∑mxi=i=1∑myixi−yˉi=1∑mxi⇒w(i=1∑mxi2−xˉi=1∑mxi)=i=1∑myixi−yˉi=1∑mxi⇒w=∑i=1mxi2−xˉ∑i=1mxi∑i=1myixi−yˉ∑i=1mxiyˉi=1∑mxi=m1i=1∑myii=1∑mxi=xˉi=1∑myixˉi=1∑mxi=m1i=1∑mxii=1∑mxi=m1(i=1∑mxi)2=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myixi−xˉ∑i=1myi=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎‪‫‫‌‬‎‮‌‌‫⁠‌‏‌‎‬‎‪‍‭‎(西瓜书式3.7)

将 $w$ 向量化，有：

$\begin{aligned} w &=\frac{\sum_{i=1}^{m} y_{i}\left(x_{i}-\bar{x}\right)}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}}‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎ \\ &\qquad \frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2} = \left(\frac{1}{m} \sum_{i=1}^{m} x_{i}\right) \sum_{i=1}^{m} x_{i} = \bar{x} \sum_{i=1}^{m} x_{i} = \sum_{i=1}^{m} x_{i} \bar{x} \\ &=\frac{\sum_{i=1}^{m} \left(y_{i} x_{i}-y_{i} \bar{x}\right)}{\sum_{i=1}^{m} \left(x_{i}^{2}-x_{i} \bar{x}\right)}‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎ \\ &=\frac{\sum_{i=1}^{m} \left(y_{i} x_{i}-y_{i} \bar{x}-y_{i} \bar{x}-y_{i} \bar{x}\right)}{\sum_{i=1}^{m} \left(x_{i}^{2}-x_{i} \bar{x}-x_{i} \bar{x}-x_{i} \bar{x}\right)}‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎ \\ &\qquad \sum_{i=1}^{m} y_{i} \bar{x}=\bar{x} \sum_{i=1}^{m} y_{i}=\frac{1}{m} \sum_{i=1}^{m} x_{i} \sum_{i=1}^{m} y_{i}=\sum_{i=1}^{m} x_{i} \cdot \frac{1}{m} \cdot \sum_{i=1}^{m} y_{i}=\sum_{i=1}^{m} x_{i} \bar{y} \\ &\qquad \sum_{i=1}^{m} y_{i} \bar{x}=\bar{x} \sum_{i=1}^{m} y_{i}=\bar{x} \cdot m \cdot \frac{1}{m} \cdot \sum_{i=1}^{m} y_{i}=m \bar{x} \bar{y}=\sum_{i=1}^{m} \bar{x} \bar{y} \\ &\qquad \sum_{i=1}^{m} x_{i} \bar{x}=\bar{x} \sum_{i=1}^{m} x_{i}=\bar{x} \cdot m \cdot \frac{1}{m} \cdot \sum_{i=1}^{m} x_{i}=m \bar{x}^{2}=\sum_{i=1}^{m} \bar{x}^{2} \\ &=\frac{\sum_{i=1}^{m} \left(y_{i} x_{i}-y_{i} \bar{x}-x_{i} \bar{y}-\bar{x}\bar{y}\right)}{\sum_{i=1}^{m} \left(x_{i}^{2}-x_{i} \bar{x}-x_{i} \bar{x}-\bar{x}^{2}\right)}‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎ \\ &=\frac{\sum_{i=1}^{m} \left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{m} \left(x_{i}-\bar{x}\right)^{2}}‎ \\ &\qquad x=\left(x_{1},x_{2},\cdots, x_{m}\right)^{T} \\ &\qquad y=\left(y_{1},y_{2},\cdots,y_{m}\right)^{T} \\ &\qquad x_{d}=\left(x_{1}-\bar{x},x_{2}-\bar{x},\cdots,x_{m}-\bar{x}\right)^{T} \\ &\qquad y_{d}=\left(y_{1}-\bar{y},y_{2}-\bar{y},\cdots,y_{m}-\bar{y}\right)^{T} \\ &=\frac{x_{d}^{T} y_{d}}{x_{d}^{T} x_{d}} \end{aligned}$ w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎m1(i=1∑mxi)2=(m1i=1∑mxi)i=1∑mxi=xˉi=1∑mxi=i=1∑mxixˉ=∑i=1m(xi2−xixˉ)∑i=1m(yixi−yixˉ)‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎=∑i=1m(xi2−xixˉ−xixˉ−xixˉ)∑i=1m(yixi−yixˉ−yixˉ−yixˉ)‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎i=1∑myixˉ=xˉi=1∑myi=m1i=1∑mxii=1∑myi=i=1∑mxi⋅m1⋅i=1∑myi=i=1∑mxiyˉi=1∑myixˉ=xˉi=1∑myi=xˉ⋅m⋅m1⋅i=1∑myi=mxˉyˉ=i=1∑mxˉyˉi=1∑mxixˉ=xˉi=1∑mxi=xˉ⋅m⋅m1⋅i=1∑mxi=mxˉ2=i=1∑mxˉ2=∑i=1m(xi2−xixˉ−xixˉ−xˉ2)∑i=1m(yixi−yixˉ−xiyˉ−xˉyˉ)‎‬‎‪‍‭‎‏‌‎‬‎‪‍‭‎=∑i=1m(xi−xˉ)2∑i=1m(xi−xˉ)(yi−yˉ)‎x=(x1,x2,⋯,xm)Ty=(y1,y2,⋯,ym)Txd=(x1−xˉ,x2−xˉ,⋯,xm−xˉ)Tyd=(y1−yˉ,y2−yˉ,⋯,ym−yˉ)T=xdTxdxdTyd

2. 二元线性回归

求解权重 $\hat{w}$ 的公式推导推导思路：

由最小二乘法导出损失函数 $E_{\hat{w}}$
证明损失函数 $E_{\hat{w}}$ 是关于 $\hat{w}$ 的凸函数
对损失函数 $E_{\hat{w}}$ 关于 $\hat{w}$ 求一阶偏导数
令各自的一阶偏导数等于0解出 $\hat{w}^{*}$

2.1. 将 $w$ 和 $b$ 组合成 $\hat{w}$

$\begin{aligned} f\left(\boldsymbol{x}_{i}\right) &=\boldsymbol{w}^{T} \boldsymbol{x}_{i}+b \\ &=\left(\begin{array}{cccc} {w_{1}} & {w_{2}} & {\dots} & {w_{d}}\end{array}\right) \left(\begin{array}{c}{x_{i 1}} \\ {x_{i 2}} \\ {\vdots} \\ {x_{i d}}\end{array}\right)+b \\ &=w_{1} x_{i 1}+w_{2} x_{i 2}+\ldots+w_{d} x_{i d}+b \\ &\qquad w_{d+1}=b \\ &=w_{1} x_{i 1}+w_{2} x_{i 2}+\ldots+w_{d} x_{i d}+w_{d+1} \cdot 1 \\ &=\left(\begin{array}{ccccc} {w_{1}} & {w_{2}} & {\dots} & {w_{d}} & {w_{d+1}}\end{array}\right) \left(\begin{array}{c}{x_{i 1}} \\ {x_{i 2}} \\ {\vdots} \\ {x_{i d}} \\ 1\end{array}\right) \\ &=\hat{w}^{T}\hat{x}_{i} \end{aligned}$

2.2. 由最小二乘法导出损失函数 $E_{\hat{w}}$

$\begin{aligned} E_{\hat{\boldsymbol{w}}} &=\sum_{i=1}^{m}\left(y_{i}-f\left(\hat{\boldsymbol{x}}_{i}\right)\right)^{2} \\ &=\sum^{m}\left(y_{i}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{i}\right)^{2} \\ &\qquad \begin{aligned} &\mathbf{X} =\left(\begin{array}{ccccc} {x_{11}} & {x_{12}} & {\dots} & {x_{1 d}} & {1} \\ {x_{21}} & {x_{22}} & {\dots} & {x_{2 d}} & {1} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} & {\vdots} \\ {x_{m 1}} & {x_{m 2}} & {\dots} & {x_{m d}} & {1} \end{array}\right) =\left(\begin{array}{cc} {\boldsymbol{x}_{1}^{\mathrm{T}}} & {1} \\ {\boldsymbol{x}_{2}^{\mathrm{T}}} & {1} \\ {\vdots} & {\vdots} \\ {\boldsymbol{x}_{m}^{\mathrm{T}}} & {1} \end{array}\right) =\left(\begin{array}{c} {\hat{\boldsymbol{x}}_{1}^{T}} \\ {\hat{\boldsymbol{x}}_{2}^{T}} \\ {\vdots} \\ {\hat{\boldsymbol{x}}_{m}^{T}} \end{array}\right) \\ &\boldsymbol{y}=\left(y_{1},y_{2},\cdots,y_{m}\right)^{T} \end{aligned} \\ &=\left(y_{1}-\hat{\boldsymbol{w}}^{T} \hat{x}_{1}\right)^{2} + \left(y_{2}-\hat{\boldsymbol{w}}^{T} \hat{x}_{2}\right)^{2} + \cdots + \left(y_{m}-\hat{\boldsymbol{w}}^{T} \hat{x}_{m}\right)^{2} \\ &=\left(\begin{array}{cccc} {y_{1}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{1}} & {y_{2}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{2}} & {\cdots} & {y_{m}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{m}} \end{array}\right) \left(\begin{array}{c} {y_{1}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{1}} \\ {y_{2}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{2}} \\ {\vdots} \\ {y_{m}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{m}} \end{array}\right) \\ &\qquad \left(\begin{array}{c} {y_{1}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{1}} \\ {y_{2}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{2}} \\ {\vdots} \\ {y_{m}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{m}} \end{array}\right) =\left(\begin{array}{c} {y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}} \end{array}\right) -\left(\begin{array}{c} {\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{1}} \\ {\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{2}} \\ {\vdots} \\ {\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{m}} \end{array}\right) =\left(\begin{array}{c} {y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}} \end{array}\right) -\left(\begin{array}{c} {\hat{\boldsymbol{x}}_{1}^{T} \hat{\boldsymbol{w}}} \\ {\hat{\boldsymbol{x}}_{2}^{T} \hat{\boldsymbol{w}}} \\ {\vdots} \\ {\hat{\boldsymbol{x}}_{m}^{T} \hat{\boldsymbol{w}}} \end{array}\right) =\left(\begin{array}{c} {y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}} \end{array}\right) -\left(\begin{array}{c} {\hat{\boldsymbol{x}}_{1}^{T}} \\ {\hat{\boldsymbol{x}}_{2}^{T}} \\ {\vdots} \\ {\hat{\boldsymbol{x}}_{m}^{T}} \end{array}\right) \hat{\boldsymbol{w}} =\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}} \\ &\qquad \left(\begin{array}{cccc} {y_{1}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{1}} & {y_{2}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{2}} & {\cdots} & {y_{m}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{m}} \end{array}\right) =\left(\begin{array}{c} {y_{1}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{1}} \\ {y_{2}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{2}} \\ {\vdots} \\ {y_{m}-\hat{\boldsymbol{w}}^{T} \hat{\boldsymbol{x}}_{m}} \end{array}\right)^{T} =\left(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}\right)^{T} \\ &=\left(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}\right)^{T}\left(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}\right) \end{aligned}$ Ew^=i=1∑m(yi−f(x^i))2=∑m(yi−w^Tx^i)2X=⎝⎜⎜⎜⎛x11x21⋮xm1x12x22⋮xm2……⋱…x1dx2d⋮xmd11⋮1⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x1Tx2T⋮xmT11⋮1⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x^1Tx^2T⋮x^mT⎠⎟⎟⎟⎞y=(y1,y2,⋯,ym)T=(y1−w^Tx^1)2+(y2−w^Tx^2)2+⋯+(ym−w^Tx^m)2=(y1−w^Tx^1y2−w^Tx^2⋯ym−w^Tx^m)⎝⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2⋮ym−w^Tx^m⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2⋮ym−w^Tx^m⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞−⎝⎜⎜⎜⎛w^Tx^1w^Tx^2⋮w^Tx^m⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞−⎝⎜⎜⎜⎛x^1Tw^x^2Tw^⋮x^mTw^⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞−⎝⎜⎜⎜⎛x^1Tx^2T⋮x^mT⎠⎟⎟⎟⎞w^=y−Xw^(y1−w^Tx^1y2−w^Tx^2⋯ym−w^Tx^m)=⎝⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2⋮ym−w^Tx^m⎠⎟⎟⎟⎞T=(y−Xw^)T=(y−Xw^)T(y−Xw^)

2.3. 证明损失函数 $E_{\hat{w}}$ 是关于 $\hat{w}$ 的凸函数

凸集定义：

设集合 $D\in R^{n}$ ，如果对任意的 $x,y\in D$ 与任意的 $a\in [0,1]$ ，有 $ax+(1-a)y\in D$ ，则称集合 $D$ 是凸集。

凸集的几何意义：

若两个点属于此集合，则这两点连线上的任意一点均属于此集合。

深度之眼西瓜书——线性模型笔记

梯度定义：

设 $n$ 元函数 $f(\boldsymbol{x})$ 对自变量 $\boldsymbol{x}=\left(x_{1}, x_{2}, \cdots, x_{n}\right)^{T}$ 的各分量 $x_{i}$ 的偏导数 $\frac{\partial f(\boldsymbol{x})}{\partial x_{i}} \quad \left(i=1,2,\cdots,n\right)$ 都存在，则称函数 $f(\boldsymbol{x})$ 在 $\boldsymbol{x}$ 处一阶可导，并称向量

$\nabla f(\boldsymbol{x}) =\left(\begin{array}{c} {\frac{\partial f(\boldsymbol{x})}{\partial x_{1}}} \\ {\frac{\partial f(\boldsymbol{x})}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(\boldsymbol{x})}{\partial x_{n}}}\end{array}\right)$

为函数 $f(\boldsymbol{x})$ 在 $\boldsymbol{x}$ 处的一阶导数或梯度，记为 $\nabla f(\boldsymbol{x})$ （列向量）。

Hessian（海塞）矩阵定义：设 $n$ 元函数 $f(\boldsymbol{x})$ 对自变量 $\boldsymbol{x}=\left(x_{1}, x_{2}, \cdots, x_{n}\right)^{T}$ 的各分量 $x_{i}$ 的二阶偏导数 $\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{i} \partial x_{j}} \quad \left(i=1,2,\cdots,n; j=1,2,\cdots,n\right)$ 都存在，则称函数 $f(\boldsymbol{x})$ 在 $\boldsymbol{x}$ 处二阶可导，并称矩阵

$\nabla^{2} f(\boldsymbol{x}) =\left[\begin{array}{cccc} {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{1} \partial x_{n}}} \\ {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{2}^{2}}} & {\cdots} & {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{2} \partial x_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{n}^{2}}} \end{array}\right]$

为函数 $f(\boldsymbol{x})$ 在 $\boldsymbol{x}$ 处的二阶导数或Hessian（海塞）矩阵，记为 $\nabla^{2} f(\boldsymbol{x})$ 。若 $f(\boldsymbol{x})$ 在 $\boldsymbol{x}$ 各变元的所有二阶偏导数都连续，则 $\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{i} \partial x_{j}}=\frac{\partial^{2} f(\boldsymbol{x})}{\partial x_{j} \partial x_{i}}$ ，此时 $\nabla^{2} f(\boldsymbol{x})$ 为对称矩阵。

多元实值函数凹凸性判定定理：

设 $D\subset R^{n}$ 是非空开凸集， $f:D\subset R^{n} \to R$ ，且 $f(\boldsymbol{x})$ 在 $D$ 上二阶连续可微，如果 $f(\boldsymbol{x})$ 的 $Hessian$ 矩阵 $\nabla^{2} f(\boldsymbol{x})$ 在 $D$ 上是正定的，则 $f(\boldsymbol{x})$ 是 $D$ 上的严格凸函数。

凸充分性定理：

若 $f:R^{n} \to R$ 是凸函数，且 $f(\boldsymbol{x})$ 一阶连续可微，则 $x^{*}$ 是全局解的充分必要条件是 $\nabla f(\boldsymbol{x}^{*})=0$ ，其中 $\nabla f(\boldsymbol{x})$ 为 $f(\boldsymbol{x})$ 关于 $\boldsymbol{x}$ 的一阶导数（也称梯度）。

2.4. 对损失函数 $E_{\hat{w}}$ 关于 $\hat{w}$ 求一阶偏导数

$\begin{aligned} \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}} &=\frac{\partial}{\partial \hat{\boldsymbol{w}}}\left[(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{T}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})\right] \\ &=\frac{\partial}{\partial \hat{\boldsymbol{w}}}\left[\left(\boldsymbol{y}^{T}-\hat{\boldsymbol{w}}^{T} \mathbf{X}^{T}\right)(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})\right] \\ &=\frac{\partial}{\partial \hat{\boldsymbol{w}}}\left[\boldsymbol{y}^{T} \boldsymbol{y}-\boldsymbol{y}^{T} \mathbf{X} \hat{\boldsymbol{w}}-\hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \boldsymbol{y}+\hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \mathbf{X} \hat{\boldsymbol{w}}\right] \\ &=\frac{\partial}{\partial \hat{\boldsymbol{w}}}\left[-\boldsymbol{y}^{T} \mathbf{X} \hat{\boldsymbol{w}}-\hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \boldsymbol{y}+\hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \mathbf{X} \hat{\boldsymbol{w}}\right] \\ &=-\frac{\partial \boldsymbol{y}^{T} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{\boldsymbol{w}}}-\frac{\partial \hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \boldsymbol{y}}{\partial \hat{\boldsymbol{w}}}+\frac{\partial \hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{\boldsymbol{w}}} \\ &\qquad \frac{\partial \boldsymbol{x}^{T} \boldsymbol{a}}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{a}^{T} \boldsymbol{x}}{\partial \boldsymbol{x}}=\boldsymbol{a} \\ &\qquad \frac{\partial \boldsymbol{x}^{T} \mathbf{B} \boldsymbol{x}}{\partial \boldsymbol{x}}=\left(\mathbf{B}+\mathbf{B}^{T}\right) \boldsymbol{x} \\ &=-\mathbf{X}^{T} \boldsymbol{y}-\mathbf{X}^{T} \boldsymbol{y}+\left(\mathbf{X}^{T} \mathbf{X}+\mathbf{X}^{T} \mathbf{X}\right) \hat{w} \\ &=2\mathbf{X}^{T}\left(\mathbf{X} \hat{w}-\boldsymbol{y}\right) \end{aligned} \tag{西瓜书式3.10}$

所以有：

$\begin{aligned} \frac{\partial^{2} E_{\hat{w}}}{\partial \hat{w} \partial \hat{w}^{T}} &=\frac{\partial}{\partial \hat{w}}\left(\frac{\partial E_{\hat{w}}}{\partial \hat{w}}\right) \\ &=\frac{\partial}{\partial \hat{w}}\left[2 \mathbf{X}^{T}(\mathbf{X} \hat{w}-\boldsymbol{y})\right] \\ &=\frac{\partial}{\partial \hat{w}}\left(2 \mathbf{X}^{T} \mathbf{X} \hat{w}-2 \mathbf{X}^{T} \boldsymbol{y}\right) \\ &=2 \mathbf{X}^{T} \mathbf{X} \hat{w} \end{aligned} \tag{Hessian矩阵}$

2.5. 令一阶偏导数等于0解出 $\hat{w}^{*}$

$\begin{aligned} &\quad \frac{\partial E_{\hat{w}}}{\partial \hat{w}} =2 \mathbf{X}^{T}(\mathbf{X} \hat{w}-\boldsymbol{y})=0 \\ &\Rightarrow 2 \mathbf{X}^{T} \mathbf{X} \hat{w}-2 \mathbf{X}^{T} \boldsymbol{y}=0 \\ &\Rightarrow 2 \mathbf{X}^{T} \mathbf{X} \hat{w}=2 \mathbf{X}^{T} \boldsymbol{y} \\ &\Rightarrow \hat{w} = \left(\mathbf{X}^{T} \mathbf{X} \right)^{-1} \mathbf{X}^{T} \boldsymbol{y} \end{aligned} \tag{西瓜书式3.11}$

3. 广义线性模型

3.1. 指数族分布

指数族（Exponential family）分布是一类分布的总称，该类分布的分布律（或者概率密度函数）的一般形式如下：

$p(y ; \eta)=b(y) \exp \left(\eta^{T} T(y)-a(\eta)\right)$

其中， $\eta$ 称为该分布的自然参数； $T(y)$ 为充分统计量，视具体的分布而定，通常是等于随机变量 $y$ 本身； $a(\eta)$ 为配分函数； $b(y)$ 为关于随机变量 $y$ 的函数，常见的伯努利分布和正态分布均属于指数族分布。

证明伯努利分布属于指数族分布：

已知伯努利分布的分布律为：

$p(y)=\phi^{y}(1-\phi)^{1-y}$

其中 $y\in\{0,1\}$ ， $\phi$ 为 $y=1$ 的概率，即 $p(y=1)=\phi$ ，对上式恒等变形可得：

$\begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln(1-\phi)^{1-y}\right) \\ &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned}$

对比指数分布的一般形式 $p(y;\eta)=b(y)exp\left(\eta^(T)T(y)-a(\eta)\right)$ ，可知：

所以，伯努利分布的指数族分布对应参数为：

$\begin{aligned} b(y)&=1 \\ \eta&=\ln\left(frac{\phi}{1-\phi}\right) \\ T(y)&=y \\ a(\eta)&=-\ln(1-\phi)=ln(1+exp{\eta}) \end{aligned}$

3.2. 广义线性模型的三条假设

在给定 $\boldsymbol{x}$ 的条件下，假设随机变量 $\boldsymbol{y}$ 服从某个指数族分布
在给定 $\boldsymbol{x}$ 的条件下，我们的目标是得到一个模型 $h(\boldsymbol{x})$ 能预测出 $T(\boldsymbol{y})$ 的期望值
假设该指数族分布中的自然参数 $\eta$ 和 $\boldsymbol{x}$ 呈线性关系，即 $\eta=w^{T}x$

4. 对数几率回归

对数几率回归是在对一个二分类问题进行建模，并且假设被建模的随机变量 $y$ 取值为0或1，因此我们可以很自然地假设 $y$ 服从伯努利分布。此时，如果我们想要构建一个线性模型来预测在给定 $\boldsymbol{x}$ 的条件下 $y$ 的取值的话，可以考虑使用广义线性模型来进行建模。

4.1. 对数几率回归的广义线性模型推导

已知 $y$ 是服从伯努利分布，而伯努利分布属于指数在发布，所以满足广义线性模型的第一条假设，接着根据广义线性模型的第二条假设我们可以推得模型 $h(x)$ 的表达式为：

$h(\boldsymbol{x})=E[T(y|\boldsymbol{x})]$

由于伯努利分布的 $T(y|\boldsymbol{x})=y|\boldsymbol{x}$ ，所以：

$h(\boldsymbol{x})=E[y|\boldsymbol{x}]$

又因为 $E[y|\boldsymbol{x}]=1\times p(y=1|\boldsymbol{x})+0\times p(y=0|\boldsymbol{x})=p(y=1|\boldsymbol{x})=\phi$ ，所以：

$h(\boldsymbol{x})=\phi$

在前面证明伯努利分布属于指数族分布时我们知道：

$\begin{aligned} &\eta=\ln \left(\frac{\phi}{1-\phi}\right) \\ &e^{\eta}=\frac{\phi}{1-\phi} \\ &e^{-\eta}=\frac{1-\phi}{\phi} \\ &e^{-\eta}=\frac{1}{\phi}-1 \\ &1+e^{-\eta}=\frac{1}{\phi} \\ &\frac{1}{1+e^{-\eta}}=\phi &\end{aligned}$

将 $\phi=\frac{1}{1+e^{-\eta}}$ 代入 $h(\boldsymbol{x})$ 的表达式可得：

$h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\eta}}$

根据广义模型的第三条假设： $\eta=w^{T}x$ ， $h(\boldsymbol{x})$ 最终可化为：

$h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-w^{T}x}}=p(y=1|\boldsymbol{x}) \tag{西瓜书式3.23}$

此即为对数几率回归模型。

4.2. 极大似然估计法

设总体的概率密度函数（或分布律）为 $f(y, w_{1}, w_{2}, \cdots, w_{k})$ ， $y_{1}$ ， $y_{2}$ ，…， $y_{m}$ ，为从该总体中抽出的样本。因为 $y_{1}$ ， $y_{2}$ ，…， $y_{m}$ 相互独立且同分布，于是，它们的联合概率密度函数（或联合概率）为：

$L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)$

其中， $w_{1}$ ， $w_{2}$ ，…， $w_{m}$ 被看作固定但是未知的参数。当我们已经观测到一组样本观测值 $y_{1}$ ， $y_{2}$ ，…， $y_{m}$ 时，要去估计未知参数，一种直观的想法就是，哪一组参数使得现在的样本观测值出现的概率最大，哪一组参数可能就是真正的参数，我们就用它作为参数的估计值，这就是所谓的极大似然估计。

极大似然估计的具体方法：

通常记 $L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=L\left(w\right)$ ，并称为其似然函数。于是求 $w$ 的极大似然估计就归结为 $L(w)$ 的最大值点。由于对数函数是单调递增函数，所以：

$\begin{aligned} \ln L(\boldsymbol{w}) &=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right) \\ &=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) \end{aligned}$

与 $L(w)$ 有相同的最大值点，而在许多情况下，求 $\ln L(w)$ 的最大值点比较简单，于是，我们就将求 $L(w)$ 的最大值点转化为了求 $\ln L(w)$ 的最大值点，通常称 $\ln L(w)$ 为对数似然函数。

对数几率回归的极大似然估计：

已知随机变量 $y$ 取1和0的概率分别为：

$\begin{aligned} &p(y=1 | \boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \\ &p(y=0 | \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \end{aligned}$

令 $\boldsymbol{\beta}=(w;b)$ ， $\hat{\boldsymbol{x}}=(\boldsymbol{x}; 1)$ ，则 $w^{T}\boldsymbol{x}+b$ 可简化为 $\boldsymbol{\beta}^{T}\hat{x}$ ，于是上式可化简为：

$\begin{aligned} &p(y=1 | \boldsymbol{x})=\frac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}} \\ &p(y=0 | \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}} \end{aligned}$

记：

$\begin{aligned} &p(y=1 | \boldsymbol{x})=\frac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{1}(\hat{\boldsymbol{x}};\boldsymbol{\beta}) \\ &p(y=0 | \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{0}(\hat{\boldsymbol{x}};\boldsymbol{\beta}) \end{aligned}$

于是，使用一个小技巧即可得到随机变量 $y$ 的分布律表达式：

$p(y | \boldsymbol{x} ; \boldsymbol{w}, b) =y \cdot p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \tag{西瓜书式3.26}$

或者：

$p(y | \boldsymbol{x} ; \boldsymbol{w}, b) =\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y} \left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}$

4.3. 对数几率回归的参数估计

根据对数似然函数的定义可知：

$\ln L(\boldsymbol{w}) =\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)$

由于此时的 $y$ 为离散型，所以将对数似然函数中的概率密度函数换成分布律即可，既有：

$\ell(w,b) :=\ln L(\boldsymbol{w},b) =\sum_{i=1}^{m} \ln f\left(y_{i} | x_{i}; \boldsymbol{w},b\right) \tag{西瓜书式3.25}$

将 $p(y | \boldsymbol{x} ; \boldsymbol{w}, b)=y \cdot p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$ 代入对数似然函数可得：

$\begin{aligned} \ell(\boldsymbol{\beta}) &=\sum_{i=1}^{m} \ln \left(y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)+\left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right) \\ &\qquad p_{1}(\hat{\boldsymbol{x}};\boldsymbol{\beta}) = \frac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}} \\ &\qquad p_{0}(\hat{\boldsymbol{x}};\boldsymbol{\beta}) = \frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}} \\ &=\sum_{i=1}^{m} \ln \left(\frac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}+\frac{1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right) \\ &=\sum_{i=1}^{m} \ln \left(\frac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right) \\ &=\sum_{i=1}^{m}\left(\ln \left(y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \\ &\qquad y_{i}\in \{0,1\} \\ &\qquad y_{i}=0 \\ &\qquad \quad \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(0 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-0\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(\ln 1-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \\ &\qquad y_{i}=1 \\ &\qquad \quad \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(1 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-1\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(\ln e^{\boldsymbol{r}_{i}^{T}}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \boldsymbol{z}_{i}}\right)\right)=\sum_{i=1}^{m}\left(\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \\ &=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \end{aligned} \tag{西瓜书式3.27}$ ℓ(β)=i=1∑mln(yip1(x^i;β)+(1−yi)p0(x^i;β))p1(x^;β)=1+eβTx^eβTx^p0(x^;β)=1+eβTx^1=i=1∑mln(1+eβTx^iyieβTx^i+1+eβTx^i1−yi)=i=1∑mln(1+eβTx^iyieβTx^i+1−yi)=i=1∑m(ln(yieβTx^i+1−yi)−ln(1+eβTx^i))yi∈{0,1}yi=0ℓ(β)=i=1∑m(ln(0⋅eβTx^i+1−0)−ln(1+eβTx^i))=i=1∑m(ln1−ln(1+eβTx^i))=i=1∑m(−ln(1+eβTx^i))yi=1ℓ(β)=i=1∑m(ln(1⋅eβTx^i+1−1)−ln(1+eβTx^i))=i=1∑m(lneriT−ln(1+eβTzi))=i=1∑m(βTx^i−ln(1+eβTx^i))=i=1∑m(yiβTx^i−ln(1+eβTx^i))(西瓜书式3.27)

若 $p(y | \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}$ ，将其代入对数似然函数可得：

$\begin{aligned} \ell(\boldsymbol{\beta}) &=\sum_{i=1}^{m} \ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right) \\ &=\sum_{i=1}^{m}\left[\ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\right)+\ln \left(\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right)\right] \\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)+\left(1-y_{i}\right) \ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right] \\ &=\sum_{i=1}^{m}\left\{y_{i}\left[\ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)-\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right]+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right\} \\ &=\sum_{i=1}^{m}\left[y_{i}\ln \frac{p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}{p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right] \\ &\qquad p_{1}(\hat{\boldsymbol{x}};\boldsymbol{\beta}) = \frac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}} \\ &\qquad p_{0}(\hat{\boldsymbol{x}};\boldsymbol{\beta}) = \frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}} \\ &=\sum_{i=1}^{m}\left[y_{i}\ln \left(e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}\right) + \ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right] \\ &=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \end{aligned}$ ℓ(β)=i=1∑mln([p1(x^i;β)]yi[p0(x^i;β)]1−yi)=i=1∑m[ln([p1(x^i;β)]yi)+ln([p0(x^i;β)]1−yi)]=i=1∑m[yiln(p1(x^i;β))+(1−yi)ln(p0(x^i;β))]=i=1∑m{yi[ln(p1(x^i;β))−ln(p0(x^i;β))]+ln(p0(x^i;β))}=i=1∑m[yilnp0(x^i;β)p1(x^i;β)+ln(p0(x^i;β))]p1(x^;β)=1+eβTx^eβTx^p0(x^;β)=1+eβTx^1=i=1∑m[yiln(eβTx^)+ln(p0(x^i;β))]=i=1∑m(yiβTx^i−ln(1+eβTx^i))

深度之眼西瓜书——线性模型笔记

深度之眼西瓜书——线性模型笔记

1. 一元线性回归

1.1. 由最小二乘法导出损失函数E(w,b)E(w, b)E(w,b)

1.2. 证明损失函数

1.2.1. 二元函数判断凹凸性：

1.2.2. 二元凹凸函数求最值：

1.2.3. 证明

1.3. 分别对损失函数E(w,b)E(w, b)E(w,b)关于bbb和www求一阶偏导数

1.4. 令各自的一阶偏导数等于0解出bbb和www

2. 二元线性回归

2.1. 将www和bbb组合成w^\hat{w}w^

2.2. 由最小二乘法导出损失函数Ew^E_{\hat{w}}Ew^​

2.3. 证明损失函数Ew^E_{\hat{w}}Ew^​是关于w^\hat{w}w^的凸函数

2.4. 对损失函数Ew^E_{\hat{w}}Ew^​关于w^\hat{w}w^求一阶偏导数

2.5. 令一阶偏导数等于0解出w^∗\hat{w}^{*}w^∗

3. 广义线性模型

3.1. 指数族分布

3.2. 广义线性模型的三条假设

4. 对数几率回归

4.1. 对数几率回归的广义线性模型推导

4.2. 极大似然估计法

4.3. 对数几率回归的参数估计

相关推荐

1.1. 由最小二乘法导出损失函数 $E(w, b)$

1.3. 分别对损失函数 $E(w, b)$ 关于 $b$ 和 $w$ 求一阶偏导数

1.4. 令各自的一阶偏导数等于0解出 $b$ 和 $w$

2.1. 将 $w$ 和 $b$ 组合成 $\hat{w}$

2.2. 由最小二乘法导出损失函数 $E_{\hat{w}}$

2.3. 证明损失函数 $E_{\hat{w}}$ 是关于 $\hat{w}$ 的凸函数

2.4. 对损失函数 $E_{\hat{w}}$ 关于 $\hat{w}$ 求一阶偏导数

2.5. 令一阶偏导数等于0解出 $\hat{w}^{*}$