Supervised learning and Unsupervised learning

一、Supervised learning （监督学习）

1、regression problem（回归问题）

监督学习是指，我们给算法一个数据集，其中包括正确答案（你想要的正确结果）。比如给定房价数据集，对于里面每个房子的占地面积，我们都给出对应的正确房价（即该房子卖出的价格），算法的目的就是给出更多的正确答案。这里的回归问题是：我们想要预测连续的数值输出，也就是价格。

在这里，我们称房子面积为特征值(feature)，房子价格为标签(label)。我们根据特征值（房子面积）来预测标签（房价）。

如图，这是一个房价的数据集，我们使用算法对其进行进行拟合，可以是直线(一次函数，粉色），也可以是二次函数(蓝色），比如，使用一次函数预测，当我想卖掉750平方米的房子，那么卖的价格可以是150千美元。

虽然房价是一个离散值，但是我们认为房价是一个实数，、标量或者连续值。即有变量x，根据数据集，来推算出结果y的值。

2、classification problem分类问题

1、单特征值

Supervised learning and Unsupervised learning

来一个数据集，横轴表示肿瘤的大小，纵轴表示肿瘤是良性的还是恶性的。特征值为肿瘤大小，标签为1（恶性的）、0（良性的）。这里对应的机器学习问题就是，根据肿瘤（Tumor）的大小，估算出一个概率，即肿瘤为恶性或者良性的概率。在这里只有两个结果，为0良性或者为1恶性。所以说，这是个分类问题。分类是要预测一个离散值输出，0或1，良性或恶性。

2、多特征值

当然，分类也会有多个特征值，多个标签。比如，标签为人的年龄和肿瘤大小。即肿瘤的属性与人的年龄和肿瘤大小有关。标签还是良性的还是恶性的。

Supervised learning and Unsupervised learning

如图，圆圈表示良性的，叉叉表示恶性的。从数据集的结果上来看，直线的左下边是良性的，右上边是恶性的。

实际上，影响因子还有其他的，比如肿瘤细胞的匀称性、厚度等等。

监督学习基本思想：在监督学习中，对于数据集中的每个数据，都有相应的正确答案，算法就是基于这些来做出预测。就像房价预测问题，我们根据已有的一些房子面积和它们的价格，来预测其他的房子价格。

回归问题：通过回归来预测一个连续值输出。分类问题：目标为预测离散值输出。

一、Unsupervised learning （无监督学习）

无监督学习与监督学习的区别就是无监督学习的数据集没有标签(label)或者标签是一样的。

Supervised learning and Unsupervised learning

也就是说在无监督学习中我们只有特征值的数据集，没人告诉我们该怎么做，我们也不知道每个数据点究竟是什么意思。相反，它只告诉我们现在有一个数据集，你能在其中找到某种结构吗？。也就是说，在非监督学习中，我们需要将一系列无标签的训练数据，输入到一个算法中，然后我们告诉这个算法，快去为我们找找这个数据的内在结构。我们可能需要某种算法帮助我们寻找一种结构。图上的数据看起来可以分成两个分开的点集（称为簇），一个能够找到我圈出的这些点集的算法，就被称为聚类算法。

Supervised learning and Unsupervised learning

一、Supervised learning （监督学习）

1、regression problem（回归问题）

2、classification problem分类问题

一、Unsupervised learning （无监督学习）

相关推荐