您的位置: 首页 > 文章 > [林轩田]机器学习基石（三）

[林轩田]机器学习基石（三）

分类: 文章 • 2024-08-08 15:06:10

Lecture 3 Types Of Learning 学习的类型

3.1 Learning with Different Output Space $Y$ 根据不同的输出空间学习

分类分析：二元分类、多元分类
回归分析：输出是实数
结构化学习

3.2 Learning with Different Data Label $y_{n}$ 根据不同的y标签学习

监督式学习
无监督式学习
半监督式学习
强化学习

3.3 Learning with Different Protocol $f => (x_{n}, y_{n})$

Batch Learning 成批学习

成批学习是业界最普遍的机器学习方式。它是将一批 $x_{n}, y_{n}$ 统统喂给学习系统，期望系统能通过学习给出一个良好的 $g$ 。

Online Learning 在线学习

与成批学习不同，在线学习是“循序”的学习。
以“垃圾邮件过滤”为例，成批学习会根据所有的训练数据 $e m a i l, . s p a m ?$ 对，输出一个合适的 $g$ 。
而在线学习会“循序的”
- 拿到一个 $x$ ，学习系统根据当前的 $g$ 预测出相应的 $y$
- 学习系统从用户上获得 $y$ 是否正确的反馈，用于更新自己的 $g$
PLA和在线学习很搭
强化学习一般是通过在线学习完成的
在线学习中的假设 $g$ ，通过“循序地”接收数据实例来“改进”

Active Learning 主动学习

如果说成批学习像填鸭式教育，在线学习像老师讲课那种教育，那么主动学习就是学生主动向老师问问题来获取知识的学习。
也就是说，学习系统如果对某个数据实例对应的输出结果拿不准，它会主动地询问用户，这个令人疑惑的 $x_{n}$ 对应的 $y_{n}$ 是什么。
主动学习的好处在于，它可以通过有针对性地地提问来提升 $g$ ，同时它可以节省标签的成本。比如说给医药类数据打标签是一件十分昂贵的事情，通过主动学习可以减少给药物打标签的成本（只需要给令系统疑惑的数据打标签即可）。

Mini Summary 简单的总结

[林轩田]机器学习基石（三）

3.4 Learning with different input space $X$ 根据不同的输入特征学习

Concrete Features 具体特征

具体的特征指， $X$ 的每个维度都具有复杂的物理含义。比如说年龄，性别，年收入等等，这些特征一般包含了学习任务中“人类的智慧”，即“领域知识”。
使用具体的特征来进行学习，是机器学习中比较简单的学习方式。

Raw Features 原始特征

考虑一个“手写数字识别”任务，如果使用具体特征，我们可以考虑对称性、密度之类的。

如上图所示，仅仅分类1,5两类，可以注意到1的对称性更强，密度更低。所以1的实例大部分分布在左上角，5在右下角。
这就是根据具体特征来学习。
考虑更原始的特征，即图片的像素。每张图片的分辨率都是 $16 * 16$ ，所以可以将输入图转化为一个256维的向量。每个维度的物理含义很简单，代表一个像素点。
原始特征的物理含义更简单，因此机器根据原始特征进行学习过程更难。
原始特征经常需要人工或机械地转化为具体特征，转化的过程叫做特征工程，深度学习也是特征工程的一种。

Abstract Features 抽象特征

抽象特征如用户id，广告id这种，几乎没有物理含义，更需要进行特征工程。

Mini Summary 简单总结

[林轩田]机器学习基石（三）