有监督学习

有监督学习又被成为：“有老师学习”，老师即标签。在有监督学习中，训练数据自身带有标签（人为标记），根据这样的数据训练出模型，对未知标签的数据进行判断。
有监督学习常见的应用场景：分类和回归

无监督学习

数据集本身不带有标签，需要机器根据相应算法自己找出数据中的规律。
无监督学习并没有告诉机器该怎么做，而是让机器自己学习怎样做事情。
无监督学习常见的应用场景：聚类和关联问题。在深度学习中也有广泛的应用

如何选择有监督学习和无监督学习

首先，我们查看现有的数据情况。假如在标签和训练数据都没有的情况下，毫无疑问无监督是最佳选项。但其实对数据了解得越充分，模型的建立就会越准确，学习需要的时间就会越短。我们主要应该了解数据的以下特性: 特征值是离散型变量还是连续型变量；特征值中是否存在缺失的值；何种原因造成缺失值；数据中是否存在异常值；某个特征发生的频率如何。

有监督学习和无监督学习的差异

其次，数据条件是否可改善？在实际应用中，有些时候即使我们没有现成的训练样本，我们也能够凭借自己的双眼，从待分类的数据中人工标注一些样本，这样就可以把条件改善，从而用于有监督学习。当然不得不说，有些数据的表达会非常隐蔽，也就是我们手头的信息不是抽象的形式，而是具体的一大堆数字，这样我们很难人工对它们进行分类。举个例子，在bag - of - words 模型中，我们采用k-means算法进行聚类，从而对数据投影。在这种情况下，我们之所以采用k-means，就是因为我们只有一大堆数据，而且是很高维的，若想通过人工把他们分成50类是十分困难的。想象一下，一个熊孩子把50个1000块的拼图混在了一起，你还能够再把这50000个凌乱的小方块区分开吗？所以说遇到这种情况也只能选用无监督学习了。

有监督学习和无监督学习的差异

有监督学习

无监督学习

如何选择有监督学习和无监督学习

相关推荐