写在前面的一些话，本人完全是一个机器学习方面的小白，作为一个非计算机专业的大一学生，本人对计算机编程和机器学习（人工智能领域）有着浓厚的兴趣。最近偶然的一次机会，能有机会接触到李宏毅老师的机器学习课程，希望能够在接下来的一段时间里，能够深入理解老师的课程，也希望通过博客详实地记录学习过程中的一些收获。如有不当之处，还请指正。

一. 什么是机器学习？

1.机器学习 ≈ 寻找一个最佳函数（Function）

借助这个函数来达到某种目的，比如：
（1）语音识别:输入一段语音信号，输出文字
f( 李宏毅机器学习：（一）机器学习导论（Introduction）笔记 ) = “How are you”
（2）图像识别:输入图片，输出图片的属性
f() = “cat”
（3）智能控制：输入棋盘局势，输出下一步落棋位置
f() = “5-5(下一步落点)”
（4）对话系统: 用户输入语言，系统输出回复，如sir
f(“Hi”) = “Hello”

2.机器学习寻找最佳函数的步骤

（1）定义一个函数集合（define a set of Function or a model）
（2）确定一个评判函数好坏的标准，让机器能够进行判断函数好坏（Goodness of function）
（3）找到最佳函数（pick the best function）

二、学习路线

李宏毅机器学习：（一）机器学习导论（Introduction）笔记

监督学习(Supervised learning)
半监督学习(Semi-Supervised learning)
迁移学习（Transfer learning)
非监督学习(Unsupervised learning)
结构化学习(Structed learning)
强化学习（Reinforcement learning）

1. 监督学习

监督学习是从标记的训练数据来推断一个功能的机器学习任务。

回归（regression）

（1）回归问题，目标函数 f 的输出为一个数值。一般用于预测。
（2）该问题一般是通过大量的训练数据，找到相对准确的函数。
（3）从线性Model入手，在进行深度机器学习时可解决非线性问题
比如：预测PM2.5
通过向目标函数中输入近几天的PM2.5情况，输出明天的PM2.5情况。

分类（classification）

（1）二元分类问题：比如判断一封邮件是否为垃圾邮件
（2）多元分类问题：比如把一堆新闻报道按主题分为教育、政治、经济、科技等几类

图1 二元分类问题

图2 多元分类问题

2. 半监督学习（Semi-Supervised learning）

半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。
比如识别猫和狗的过程：
李宏毅机器学习：（一）机器学习导论（Introduction）笔记

3. 迁移学习（Transfer learning)

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。看似A和B并不相关，但是是实际效果还是很不错的。但这要求A具有泛化特征
例如：还是识别猫狗的例子，我们可以在识别猫狗的基础上识别大象、老虎。（在一定的基础上进行学习）
带标记的数据
李宏毅机器学习：（一）机器学习导论（Introduction）笔记

除了上面带标记的数据还混有未被标记的数据李宏毅机器学习：（一）机器学习导论（Introduction）笔记

4. 非监督学习(Unsupervised learning)

非监督学习就是在没有具体数据标注的情况下进行学习。
例如：
机器阅读：机器在大量的文档中学会词语的意思
训练的数据是大量的文档
机器绘画：机器在看过图片信息后，自己绘制图片
训练数据是大量的图片

5. 结构化学习(Structed learning)

结构化学习就是要超越简单的回归和分类，通过函数输出结构化的结果：比如图片、语言、声音，而不是仅仅一个选项或者数字
例如声音识别，机器翻译，人脸识别。
李宏毅机器学习：（一）机器学习导论（Introduction）笔记

6.强化学习（Reinforcement learning）

通过与监督学习对比较容易进行理解

监督学习 V.S. 强化学习

监督学习：我们会告诉机器正确答案是什么，类似有一个老师告诉机器应该怎么做，机器向老师学习。
强化学习：没有告诉机器正确答案，机器只能得到一个分数或者结果，知道自己做得好不好。从评价中学习。
比如训练机器下围棋：
李宏毅机器学习：（一）机器学习导论（Introduction）笔记
如上图所示：
在监督学习下，看到某个棋盘，就下某个位置。
在强化学习下，机器和对手下棋，下了几百步之后，机器只知道赢了还是输了，至于中间过程哪一步到底为什么该那么下，机器并不了解。
著名的Alpha Go是用监督模式和强化学习结合起来进行训练的。