吴恩达机器学习笔记第一至五章

第一章绪论：初识机器学习

机器学习（Machine Learning）：

在没有明确设置的情况下使计算机具有学习能力的研究领域
计算机程序从经验E中学习，解决某一任务T，进行某一性能度量P，通过P测定在T上的表现因经验E而提高

监督学习（Supervised Learning）：数据集中包含“正确答案”
无监督学习（Unsupervised Learning）：数据集中不包含有标签或全部带有相同标签
回归问题（Regression）：预测连续的数值输出
分类问题（Classification）：预测离散的数值输出

第二章单变量线性回归（Univariate Linear Regression ）

回归模型： $m$ 表示训练样本数， $x$ 为输入变量即特征， $y$ 为输出变量即目标， $(x,y)$ 表示一个训练样本， $(x^{(i)},y^{(i)})$ 表示第 $i$ 个训练样本，则假设函数(hypothesis) 为：
${h_\theta }(x) = {\theta _0} + {\theta _1}x$
其中， ${\theta _0},{\theta _1}$ 为参数。在训练时应选择合理的 ${\theta _0},{\theta _1}$ 使得对于任意的 $x$ 都能够准确地预测 $y$ 的值。

代价函数(Cost Function)-平方误差函数(Square Error Cost Function):
$J\left( {{\theta _0},{\theta _1}} \right) = \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}}$
训练以设定的 ${\theta _0},{\theta _1}$ 开始，不断改变 ${\theta _0},{\theta _1}$ 以达到 $\mathop {{\rm{minimize}}}\limits_{{\theta _0},{\theta _1}} J\left( {{\theta _0},{\theta _1}} \right)$

梯度下降算法(Gradient Descent Algorithm)：重复下面的公式直到收敛
${\theta _j}: = {\theta _j} - \alpha \frac{\partial }{{\partial {\theta _j}}}J\left( {{\theta _0},{\theta _1}} \right){\rm{ }}\ \ \ \ \left( {{\rm{for\ \ }}j = 0\ \ {\rm{ and\ \ }}j = 1} \right)$
其中， $\alpha$ 代表学习率。并且在更新时， ${\theta _0},{\theta _1}$ 需要进行同步更新。使用梯度下降算法时，选用不同的 ${\theta _0},{\theta _1}$ 初始值，可能会得到不同的局部收敛点。

对于学习率的选择，如果 $\alpha$ 选择的过小，则梯度下降速率则会过于缓慢，而 $\alpha$ 选择的过大，则会出现不收敛的情况，当选择合适的学习率后，梯度下降的步伐会随着最优点的接近而逐步变小。

Batch 梯度下降:“batch”的含义为每一步的梯度下降使用了所有的训练样本

第三章线性代数回顾

第四章配置

第五章多变量线性回归

定义： $n$ 为特征数量， ${x^{\left( i \right)}}$ 为输入的第 ${i^{th}}$ 个特征向量， $x_j^{\left( i \right)}$ 为输入的第 ${i^{th}}$ 个特征向量中的第 $j$ 个值。为了标记简便，定义 ${x_0} = 1$ 且
$x=\left[ \begin{array}{c}{x_{0}} \\ {x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right] \in \mathbb{R}^{n+1} \quad \theta=\left[ \begin{array}{c}{\theta_{0}} \\ {\theta_{1}} \\ {\theta_{2}} \\ {\vdots} \\ {\theta_{n}}\end{array}\right] \in \mathbb{R}^{n+1}$
则多元线性回归的假设函数为：
${h_\theta }\left( x \right) = {\theta _0}{x_0} + {\theta _1}{x_1} + \cdots + {\theta _n}{x_n} = {\theta ^T}x$
代价函数：
$J\left( {{\theta}} \right) = \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}}$
梯度下降：
${\theta _j}: = {\theta _j} - \alpha \frac{\partial }{{\partial {\theta _j}}}J\left( {{\theta _0}, \cdots ,{\theta _n}} \right){\rm{ }}\ \ \ \ \ \ \ \left( {{\rm{for\ \ }}j = 0, \cdots ,n} \right)\\ {\theta _j}: = {\theta _j} - \alpha \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)} x_j^{\left( i \right)}\ \ \ \ \left( {{\rm{for\ \ }}j = 0, \cdots ,n} \right)$
特征缩放(Feature Scaling)： 确保特征值在相近的范围内，以使得梯度下降算法更快的收敛。

均值归一化(Mean normalization)： 使用 ${x_i} - {\mu _i}$ 代替 ${x_i}$ 使得特征值具有近似零均值(除了 ${x_0} = 1$ )
${x_i} = \frac{{{x_i} - {\mu _i}}}{{{s_i}}}$

学习率(Learning rate)的选择： 如果学习率过小，则可能出现收敛速度过慢的情况；如果学习率过大，则可能出现不收敛的情况。

对于多特征预测的问题，可以合理的将特征进行组合，创建新的特征，可能会得到更好的模型。

多项式回归(Polynomial Regression)： 可以选择不同的多项式去更好的拟合数据

$\begin{aligned} h_{\theta}(x) &=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\theta_{3} x_{3} \\ &=\theta_{0}+\theta_{1}(s i z e)+\theta_{2}(s i z e)^{2}+\theta_{3}(s i z e)^{3} \\ {x_{1}}&={(size)} \\ {x_{2}}&={({size})^{2}} \\ {x_{3}}&={{(size)} ^{3}} \\ or\ \ \ \ \ \ \ h_{\theta}(x)&=\theta_{0}+\theta_{1}(s i z e)+\theta_{2} \sqrt{(s i z e)} \end{aligned}$

正规方程(Normal Equation)： 一种直接求得 $\theta$ 的解析解法

$\theta=\left(X^{T} X\right)^{-1} X^{T} y$

当数据集中包含有多余的特征，或者特征数量过多而样本过少时，则会出现矩阵不可逆的情况，这时候在计算时用伪逆替换即可得到正确的结果。(伪逆与逆的区别)

对于正规方程，他不需要选择学习率，也不需要多次的迭代，但当特征 $n$ 的数量较大时，梯度下降法仍然可以很好的工作而正规方程因为需要计算矩阵的逆，因此会变得特别慢。

吴恩达机器学习笔记 第一至五章

第一章 绪论：初识机器学习

第二章 单变量线性回归（Univariate Linear Regression ）

第三章 线性代数回顾

第四章 配置

第五章 多变量线性回归