监督学习入门知识

2个概念
在具体的建模分析中
标签指我们重点观测和预测的变量;
特征是指影响标签的一些因素.
3种机器学习方式
监督学习—看样本数据是否同时具有特征和标签;
无监督学习—样本数据中只有特征,没有标签,算法自己去挖掘特征之间的规律。
强化学习—没有特征也没有标签,只给定行为规则,通过学习到对环境的反应。比如机器人学习在不同位置投篮的力度和角度。

那么本文我们主要来看一下机器学习里面用得最多的一类监督学习

监督学习入门知识

1、监督学习概念

监督学习:主要通过对样本数据中的特征与标签之间的规律,从而对新样本数据进行预测。
监督学习入门知识

2、监督学习两种模式(分类/回归)

监督学习包括回归预测和分类预测两种;这两种的区别主要看标签是连续型的数值还是离散型的类别。
比如:房价的数值预测就是回归预测,房价的涨跌预测就是分类预测。
因为房价的数值是可以有很多无限个连续的值,而房价的涨跌预测只有有限的两种类别(涨和跌)
1)回归预测–房价的预测
假如你朋友在深圳南山区深圳湾片区有一套120平米的房子,现在因为急需用钱,想知道这套房子能卖多少钱?
回归预测:收集同片区房价与面积的相关数据,回归算法通过学习房价与面积之间的规律,拟合出一个函数,通过这个函数对这套120平米的房子进行估价。
监督学习入门知识
注意:
不同的回归算法拟合的函数略有不同;算法我们将在后面讲到。
当影响房价的特征有多到数不清的情况,算法也是一样进行学习的。
2)分类预测–肿瘤的鉴定
现在从医疗记录上有这样一些数据:随着肿瘤的大小以及年龄分别呈现良性与恶性的数据。
分类预测:通过分类算法对数据进行学习,挖掘规律,把良性肿瘤和恶性肿瘤分开。当有新的病人(图中绿色的圆圈)问诊,就可以根据他的肿瘤的症状进行判断。
监督学习入门知识

3、监督学习算法

监督学习算法可以看作一个黑盒模型,不同的算法学习数据的方式不一样,但是目的都是一样的,通过拟合特征与标签之间的关系,基于这种关系来预测新的样本。
4种既能用于回归预测又能用于分类预测的算法
1)支持向量机算法
- 分类:通过将低维的数据映射到高维空间,在高维空间找一个最优超平面使得分类间隔最大。
- 监督学习入门知识

  • 回归:通过将低维的数据映射到高维空间,在高维空间找一个最优超平面使得尽可能多的点在超平面上。
    监督学习入门知识
    最大的特点是可以处理很多非线性的数据。
    2)决策树算法
    通过特征生成一系列的判定规则。
  • 比如:银行判定用户是否可以偿还贷款,先判断是否有房产,如果没有再判断月收入等。直到可以得出具体的结果为止。
    监督学习入门知识
  • 回归-身高预测:先判断性别,如果是女,就在170cm以下,继而判断脚的码数,如果小于34码,身高就是150cm左右。
    3)随机森林算法
    随机森林是由一系列决策树组成的算法。决策树得到的结果最多的值作为随机森林最后的预测值。
    监督学习入门知识
    4)boost算法
    基于各种学习算法的线性组合。算法可以自定义。
    3种只能用于分类预测的算法
    1)K近邻分类
    将新样本判定为K个样本中样本最多的类别。
    监督学习入门知识
    2)朴素贝叶斯分类
    基于朴素贝叶斯,基于数据经验将样本判定为概率最大的类别。
    例子:假设某个体有n项特征,分别为x1、x2、…、xn。现有m个类别,分别为y1、y2、…、ym。贝叶斯分类器通过计算出概率最大的类别。
    P(yi|x1,x2,…xn)=\frac{P(x1,x2,..xn|yi)*P(yi)}{P(x1,x2,…xn)}
    ,i=1,2,3…,m$
    因为是基于贝叶斯公式计算条件概率的,所以适用于特征之间是相互独立的情况。
    3)逻辑回归
    基于Logistic函数直接计算样本属于正负样本的概率
    监督学习入门知识
    1种只能用于回归预测的算法
    线性回归
    通过拟合标签与特征之间的线性关系。
    监督学习入门知识

4、建模流程

监督学习入门知识
阶段1、根据数据判断建模分析属于机器学习哪种问题:
1)如果数据是带有标签的数据,那么就是监督学习问题。
如果标签是连续数据–回归问题;
如果标签是离散数据–分类问题。
2)如果数据没有标签,那么就是一个无监督学习问题。
3)如果是通过学习,优化行为对环境的反应,就是一个强化学习问题。
阶段2、数据处理
80%时间精力都集中在数据处理阶段,数据处理的好坏直接决定后面模型的性能。包括数据清洗,提取特征,缺失值处理,数据转换(数字化/向量化/特征化)等过程。数据处理需要结合业务特点,数据环境特点增加特殊处理技巧。
阶段3、选择模型及训练
数据处理好之后,需要选择合适的算法来对数据进行训练。没有哪种算法是最好的,也没有哪种场合必须用哪种算法,在建模过程中,我们需要选择各种算法进行训练,并对模型的优劣进行比较,得出最适合当前数据下的模型。
阶段4:模型测试
将得到的模型应用在测试集合上,并用相应的量化指标来帮助我们对模型的性能进行分析。
阶段5:参数调优
如果模型不是很理想的情况下,需要调整参数(需要对算法非常了解),或者返回去更换模型,甚至返回到数据处理阶段对数据重新处理。
最后当我们的模型应用实际的场景当中(如房价预测),这时候也需要收集实时产生的数据作为样本来不断更新和改进我们的模型。整个过程是一个不断促进,循环往复的过程。

这就是我们监督学习一些入门的知识。下一篇将通过Titanic数据建模来带领大家直观了解监督学习整个建模的流程。