机器学习笔记 Day 1

机器学习是什么

机器学习的两种定义：
在无需具体的编程规则的条件下，给予计算机以学习的能力
计算机程序从经验 E 中学习某些类型的任务 T 和性能度量 P，如果它在任务 T 中的性能(以P度量)随着经验E的提高而提高

监督学习

监督学习指的就是我们给学习算法一个数据集（训练集），这个数据集由“正确答案”组成，在视频中的房价例子中，每个样本的价格就是正确答案。我们根据实际的售价运用学习算法，算出更多的正确答案。这叫做回归问题（回归是指我们预测一个具体的结果输出）。
而另一个监督学习的例子是关于乳腺肿瘤良性与否的判断。这类问题中每个数据都能知道是否是良性，而当我们检查出乳腺肿瘤时可以通过机器学习算法推测出是良性的概率。这样的一类问题是分类问题。
机器学习笔记 Day 1

上图中年龄和肿瘤大小分别表示不同的特征，而在其他一些机器学习问题中，可能会遇到不止一种特征。如上图右侧的 Clump Thickness（肿瘤的厚度）等特征。

总结：监督学习的基本思想是，我们数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测，就像房子和肿瘤的例子中做的那样。

无监督学习

在无监督学习中，我们已知的数据看上去有点不一样，不同于监督学习的数据的样子（有标签/有正确答案），无监督学习中没有任何标签或者是有相同标签或者是都没有标签。所以我们已知数据集，却不知如何处理，也未告知每个数据点是什么。针对数据集，无监督学习可能会把这些数据分成两个不同的簇。所以叫做聚类算法。
聚类算法的使用场景也非常丰富，如谷歌新闻将同一主题的新闻显示到一起，如鸡尾酒宴问题等。
总结：无监督学习的数据集是没有标签的或者是有相同标签（这些标签不会给数据的分类带来什么影响）。针对给定的数据集，无监督学习可能会把这些数据分成不同的簇，所以叫做聚类算法。

模型描述

线性回归(Linear Regression)

定义一些符号：
m: 表示训练样本的数量（Number of training examples）
x: 表示输入变量或者是特征（“input” variale / features）
y: 表示输入变量或者是预测的目标变量（“output” variabl / “target” variable）
(x,y): 表示一个训练样本（one training example）
(x^(i),y(i)): 表示特定的训练样本，第 i 个训练样本，上标只是训练集的一个索引
h: 代表假设函数（hypothesis）
图片: https://uploader.shimo.im/f/3NLwXfRnAzzAqvQK.png
上图是一个监督学习算法的工作方式，可以看到这里有训练集，当我们将训练集喂给学习算法后，学习算法会输出一个函数，通常用 h (hypothesis)表示。上图右边的函数是一个线性函数其中一种表达形式为： h θ ( x ) h_θ(x) hθ(x) = θ 0 θ_0 θ0 + θ 1 ( x ) θ_1(x) θ1(x)，而由于只有单个变量（价格）所以我们也称之为单变量线性回归问题。