1.2.2 【Deep Learning翻译系列】Logistic Regression 对数几率回归

在这个视频中，我们将回顾逻辑回归。当监督学习问题中输出标签Y全部为0或1时，这是一种学习算法。

所以对于二元分类问题。给定一个输入特征向量 $x$ （可能对应于您想要识别为猫图片或不是猫图片的图片），您需要一种可输出预测的算法，我们将其称为 $\hat{y}$ ，它是您对 $y$ 的估计。
更正式地说 $\hat{y} = p (y = 1 | x)$ ，也就是是给定输入特征 $x$ 的条件下， $y$ 等于1的概率。
换句话说，如果X是一张图片，你希望 $\hat{y}$ 告诉你，这是图片有多大概率是猫？

因此，正如我们在前面的视频中所说的， $x \in R^{n_{x}}$ 是一个 $n_{x}$ 维矢量。对数几率回归的参数 $W \in R^{n_{x}}$ 也是 $n_{x}$ 维矢量， $b \in R$ 是一个实数。所以给定 $x \in R^{n_{x}}, W \in R^{n_{x}}, b \in R$ ，我们如何得到 $\hat{y}$ ？

那么，有一件事你可以试试，但是不会有用，那就是让 $\hat{y} = W^{T} x + b$ ，是输入 $x \in R^{n_{x}}$ 的线性函数。
事实上，这就是线性回归。
但是这对二分类问题并不是一个很好的算法，因为你希望 $\hat{y}$ 是 $y$ 等于1的几率，所以 $\hat{y}$ 应该在0到1之间。
这用线性回归很难做，因为 $W^{T} x + b$ 可能比1更大，或者它甚至可能是负的，这对概率是没有意义的。

因此，在逻辑回归中，我们的输出将是 $\hat{y}$ 等于 $W^{T} x + b$ 的sigmoid函数，即 $\hat{y} = σ (W^{T} x + b)$ ， $σ$ 表示sigmoid函数。

如果在水平轴上我绘制 $z = W^{T} x + b$ ，那么z的sigmoid函数看起来像这样：
1.2.2 【Deep Learning翻译系列】Logistic Regression 对数几率回归
它从0到1平稳地变化。这是0，然后函数又穿过了纵轴上的0.5，这就是Z的sigmoid函数。

这里是sigmoid函数的公式 $σ (z) = \frac{1}{e^{- z} + 1}$ 。如果 $z$ 非常大，那么 $e^{- z}$ 趋于零。 $σ (z)$ 接近1。
相反，如果 $z$ 非常小，或者它是一个非常大的负数， $σ (z)$ 接近于零。

所以当你实现对数几率回归时，你的工作是试着学习参数 $W$ 和 $b$ ，这样 $\hat{y}$ 可以很好的估计 $y$ 等于1的几率。

在继续之前，关于符号我们想要做一些注解。

当我们编程时，我们通常将参数 $W$ 和参数 $b$ 分开写。在其他地方，您可能会看到一种处理方式不同的符号。
在一些惯例中，您定义了一个名为 $x_{0} = 1$ 的额外特征，此时 $x \in R^{n_{x} + 1}$ ， $\hat{y} = σ (θ^{T} x)$ ， $θ_{1}, . . ., θ_{n} = W$ ， $θ_{0} = b$ ；

事实证明，当你实现你的神经网络时，将B和W保持为独立的参数会更容易。所以，在这个班级中，我们不会使用我刚刚用红色写的任何符号约定。
如果您以前在其他课程中没有看到过这个符号，请不要担心。对于那些已经看到这种表示法的人来说，我只是想明确提到我们在本课程中没有使用这种表示法。但如果你以前没有见过这个，这不重要，你不需要担心。

所以你现在已经看到了逻辑回归模型的样子。接下来要训练参数 $W$ 和 $b$ ，您需要定义一个cost function。
我们在下一节课中做这个。
1.2.2 【Deep Learning翻译系列】Logistic Regression 对数几率回归

1.2.2 【Deep Learning翻译系列】Logistic Regression 对数几率回归

1.2.2 【Deep Learning翻译系列】Logistic Regression 对数几率回归

相关推荐