Supervised learning and Unsupervised learning

一、Supervised learning (监督学习)

1、regression problem(回归问题)

监督学习是指,我们给算法一个数据集,其中包括正确答案(你想要的正确结果)。比如给定房价数据集,对于里面每个房子的占地面积,我们都给出对应的正确房价(即该房子卖出的价格),算法的目的就是给出更多的正确答案。这里的回归问题是:我们想要预测连续的数值输出,也就是价格。

在这里,我们称 房子面积为特征值(feature),房子价格为标签(label)。我们根据特征值(房子面积)来预测标签(房价)。

Supervised learning and Unsupervised learning

 如图,这是一个房价的数据集,我们使用算法对其进行进行拟合,可以是直线(一次函数,粉色),也可以是二次函数(蓝色),比如,使用一次函数预测,当我想卖掉750平方米的房子,那么卖的价格可以是150千美元。

虽然房价是一个离散值,但是我们认为房价是一个实数,、标量或者连续值。即有变量x,根据数据集,来推算出结果y的值。

2、classification problem分类问题

1、单特征值

Supervised learning and Unsupervised learning

来一个数据集,横轴表示肿瘤的大小,纵轴表示肿瘤是良性的还是恶性的。特征值为肿瘤大小,标签为1(恶性的)、0(良性的)。这里对应的机器学习问题就是,根据肿瘤(Tumor)的大小,估算出一个概率,即肿瘤为恶性或者良性的概率。在这里只有两个结果,为0良性或者为1恶性。所以说,这是个分类问题。分类是要预测一个离散值输出,0或1,良性或恶性。

2、多特征值

当然,分类也会有多个特征值,多个标签。比如,标签为人的年龄和肿瘤大小。即肿瘤的属性与人的年龄和肿瘤大小有关。标签还是良性的还是恶性的。

Supervised learning and Unsupervised learning

如图,圆圈表示良性的,叉叉表示恶性的。从数据集的结果上来看,直线的左下边是良性的,右上边是恶性的。

实际上,影响因子还有其他的,比如肿瘤细胞的匀称性、厚度等等。

监督学习基本思想:在监督学习中,对于数据集中的每个数据,都有相应的正确答案,算法就是基于这些来做出预测。就像房价预测问题,我们根据已有的一些房子面积和它们的价格,来预测其他的房子价格。

回归问题:通过回归来预测一个连续值输出。分类问题:目标为预测离散值输出。

一、Unsupervised learning (无监督学习)

无监督学习与监督学习的区别就是 无监督学习的数据集没有标签(label)或者标签是一样的。

Supervised learning and Unsupervised learning

也就是说在无监督学习中我们只有特征值的数据集,没人告诉我们该怎么做,我们也不知道每个数据点究竟是什么意思。相反,它只告诉我们现在有一个数据集,你能在其中找到某种结构吗?。也就是说,在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构。我们可能需要某种算法帮助我们寻找一种结构。图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法。