线性模型

线性模型是机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型。给定一个D维样本 $\pmb{x}=[x_1,...,x_D]^T$ ,其线下你给组合函数为：
$f(x;w)=w_1x_1+w_2x_2+...+w_Dx_D+b=\pmb{w^Tx}+b$
其中 $\pmb{w}=[w_1,...w_D]^T$ 为为D维的权重向量。直接用 $f(x;w)$ 来预测输出目标 $y=f(x;w)$ 。在分类问题中，由于输出目标 $y$ 是一些离散的标签，而 $f(x;w)$ 的置于为实数，因此无法直接用 $f(x;w)$ 来进行预测，需要引入一个非线性的决策函数 $g(.)$ 来预测输出目标
$y=g(f(x;w))$
其中 $f(x;w)$ 也称为判别函数。典型的二分类问题的结构图如下：

线性模型

3.1线性判别函数和决策边界

一个线性分类模型是由一个（或多个）线性的判别函数 $f(\pmb{x;w})=\pmb{w^Tx}+b$ 和非线性的决策函数 $g(.)$ 构成。

3.1.1二分类

二分类问题的类别标签 $y$ 只有两种取值，通常可以设为{+1,-1}。在二分类问题中，我们只需要一个线性判别函数 $f(\pmb{x;w})=\pmb{w^Tx}+b$ 。特征空间KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲{R}中满足 $f(\pmb{x;w})=0$ 的点组成一个分割超平面，称为决策边界。决策边界将特征空间一分为二，划成两个区域，每一个区域对应一个类别。

线性模型

给定N个样本的训练集KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲{D}={(x^{(n)},y….其中 $y^{n}\in(+1,-1)$ .线性模型视图学习到参数 $\pmb{w^*}$ ，使得对于每个样本 $(x^{n},y^n)$ 尽量满足
$f(\pmb{x}^(n);\pmb{w}^*)>0\qquad if \quad y^{(n)}=1\\ f(\pmb{x}^(n);\pmb{w}^*)>0 \qquad if \quad y^{(n)}=1$

线性模型

3.1.2多分类

多分类问题是指分类的类别数C大于2.多分类一般需要多个线性判别函数，但是设计这些判别函数有很多种形式。

假设一个多分类的问题的类别是 $\lbrace1,2,...C\rbrace$ 。常用的方式有以下三种：

（1）“一对其余”方式:把多分类问题转换为???? 个“一对其余”的二分类问
题．这种方式共需要???? 个判别函数，其中第???? 个判别函数 $f_c$ 是将类别???? 的样本和
不属于类别???? 的样本分开．

（2）“一对一方式”：：把多分类问题转换为????(???? − 1)/2 个“一对一”的二分
类问题．这种方式共需要????(???? − 1)/2 个判别函数，其中第(????, ????) 个判别函数是把类
别???? 和类别???? 的样本分开．

（3）“argmax”方式：这是一种改进的“一对其余"方式，共需要C个判别函数
$f_c(\pmb{x,w_c})=\pmb{w_c^Tx}+b_c \qquad c\in\lbrace1,...C\rbrace$
对于样本????，如果存在一个类别????，相对于所有的其他类别????(̃ ???? ̃ ≠ ????)有????????(????;????????) >
????????̃(????,????????̃)，那么????属于类别????．“argmax”方式的预测函数定义为
$y={argmax}_{c=1}^Cf_c(\pmb{x;w}_c)$

线性模型

3.2 logistic回归

对于二分类问题，假定 $y\in\lbrace0,+1\rbrace$ ,给定一个输入向量 $\pmb{x}$ ，它可能对应一张图片（假设包含猫），比如你可能想要识别这张图片是否包含一只猫，你想要一个算法能够输出预测 $\hat{y}$ ，也就是对实际值 $y$ 的估计。也就是说你想要让 $\hat{y}$ 表示 $y$ 等于1的可能性，前提条件是给定了输入特征 $\pmb{x}$ 。我们引入非线性函数sigmoid函数： $g（.）=\sigma$ 来预测后验概率 $p(y=1|\pmb{x})$ 。
$let\quad y\approx\hat{y}=p(y=1|\pmb{x})=g(f(\pmb{x;w}))=g(\pmb{w^Tx}+b)=\sigma(\pmb{w^Tx}+b)$
其中sigmoid函数（也称为logistics函数）的图像为：

线性模型

sigmoid函数函数表达式为： $\sigma(z)=\frac1{1+e^{-z}}$ .由表达式可知，如果 $z$ 很大的话 $\sigma(z)\approx1$ 。相反的，如果 $z$ 很小，那么 $\sigma(z)\approx0$ 。因此此时我们的工作就是让机器学习参数 $\pmb{w},b$ 使得 $z=\pmb{w^Tx}+b$ 较大，这样才能使 $\hat{y}$ 成为对 $y=1$ 这一情况的一个很好的估计。

3.2.1 参数学习

logistics回归采用交叉熵作为损失函数，并使用梯度下降法来对参数进行更新（优化）。

损失函数为（最小化损失函数）：
$\Re(\pmb{w},b)=-\frac1N\sum_{n=1}^N(y^{(n)}log(\hat{y}^{(n)})+(1-y^{n})log(1-\hat{y}^{(n)}))$
直观的理解：当 $y=1$ 时损失函数为 $-log(\hat{y})$ ,如果想要损失函数尽可能的小，那么 $\hat{y}$ 就要尽可能的大，又因为sigmiod函数的取值范围为[0,1]，所以 $\hat{y}$ 会尽可能的接近1。同理当 $y=0$ 时损失函数为 $-log(1-\hat{y})$ ，如果想要损失函数尽可能的小，就要使 $\hat{y}$ 尽可能接近0。

3.3 softmax回归

https://note.youdao.com/ynoteshare1/index.html?id=a15461dfbaf9b46fe22a75dc0ef34b46&type=note

Softmax 回归（Softmax Regression），也称为多项Multinomial）或多类（Multi-Class）的Logistic 回归，是Logistic 回归在多分类问题上的推广。

对于多分类问题，类别标签 $y\in\lbrace1,2,...C\rbrace$ 可以有C个可能取值。给定一个样本 $\pmb{x}$ ，softmax回归预测的属于类别c的概率为
KaTeX parse error: Got function '\tilde' with no arguments as subscript at position 70: …w_c^Tx})}{\sum_\̲t̲i̲l̲d̲e̲{c}^{C}exp(\pmb…

其中 $\pmb{w_c}$ 为第第c类的权重向量。

3.3.1参数学习

采用交叉熵损失函数，softmax的损失函数为：
$\Re(\pmb{w},b)=-\frac1N\sum_{n=1}^Ny^{(n)}log(\hat{y}^{(n)})$

学习

采用交叉熵损失函数，softmax的损失函数为：
$\Re(\pmb{w},b)=-\frac1N\sum_{n=1}^Ny^{(n)}log(\hat{y}^{(n)})$

3.1线性判别函数和决策边界

3.1.1二分类

3.1.2多分类

3.2 logistic回归

3.2.1 参数学习

3.3 softmax回归

3.3.1参数学习

相关推荐