有监督学习和无监督学习的差异

有监督学习

  1.  有监督学习又被成为:“有老师学习”,老师即标签。在有监督学习中,训练数据自身带有标签(人为标记),根据这样的数据训练出模型,对未知标签的数据进行判断。
  2. 有监督学习常见的应用场景:分类和回归

无监督学习

  1. 数据集本身不带有标签,需要机器根据相应算法自己找出数据中的规律。
  2. 无监督学习并没有告诉机器该怎么做,而是让机器自己学习怎样做事情。
  3. 无监督学习常见的应用场景:聚类和关联问题。在深度学习中也有广泛的应用

如何选择有监督学习和无监督学习

   首先,我们查看现有的数据情况。假如在标签和训练数据都没有的情况下,毫无疑问无监督是最佳选项。但其实对数据了解得越充分,模型的建立就会越准确,学习需要的时间就会越短。我们主要应该了解数据的以下特性: 特征值是离散型变量还是连续型变量;特征值中是否存在缺失的值;何种原因造成缺失值;数据中是否存在异常值;某个特征发生的频率如何。

有监督学习和无监督学习的差异

    其次,数据条件是否可改善?在实际应用中,有些时候即使我们没有现成的训练样本,我们也能够凭借自己的双眼,从待分类的数据中人工标注一些样本,这样就可以把条件改善,从而用于有监督学习。当然不得不说,有些数据的表达会非常隐蔽,也就是我们手头的信息不是抽象的形式,而是具体的一大堆数字,这样我们很难人工对它们进行分类。举个例子,在bag - of - words 模型中,我们采用k-means算法进行聚类,从而对数据投影。在这种情况下,我们之所以采用k-means,就是因为我们只有一大堆数据,而且是很高维的,若想通过人工把他们分成50类是十分困难的。想象一下,一个熊孩子把50个1000块的拼图混在了一起,你还能够再把这50000个凌乱的小方块区分开吗?所以说遇到这种情况也只能选用无监督学习了。