机器学习导论

一、人工智能的发展

⼈⼯智能不是“模仿⼈类”,⽽通常是“远超⼈类”
人工智能的三次浪潮

  • 1956 Artificial Intelligence提出
  • 1950-1970 符号主义流派:专家系统占主导地位
    —1962:IBM 的跳棋程序战胜人类高手(人工智能第一次浪潮)
  • 1980-2000统计主义流派:主要用统计模型解决问题
    —1997:IBM 深蓝战胜象棋选手卡斯帕罗夫(人工智能第二次浪潮)
  • 2010-至今神经网络、深度学习、大数据流派
    — 2016:Google AlphaGO 战胜围棋选手李世石(人工智能第三次浪潮)
    人工智能的热门方向:
    机器学习导论
    如今的人工智能
    机器学习导论

二、人工智能概念区别和联系

机器学习是人工智能的一个分支,深度学习是实现机器学习的一种技术。
机器学习导论

三、数据分析、数据挖掘和机器学习的关系

  • 数据:即观测值,如测量数据;
  • 信息:可信的数据;
  • 数据分析:从数据到信息的整理、筛选和加工过程 ;
  • 数据挖掘:对信息进行价值化的分析;

机器学习是一种方法,数据挖掘是一件事情,还有一个相似的概念就是模式识别,这也是一件事情。 而现在流行的深度学习技术只是机器学习的一种,机器学习和模式识别都是达到人工智能目标的手段之一。对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。

四、机器学习概念

机器学习,它致力于研究如何通过计算(CPU和GPU计算)的手段,利用经验来改善 (计算机)系统自身的性能。

机器学习所研究的主要内容:

  • 在计算机上从数据中产生“模型(model)”算法(学习算法)
  • 数据+机器学习算法=机器学习模型

概念学习:从有关某个布尔函数(是或否)的输入输出训练样例中推断出该布尔函数。
分类(classification):目标标记为类别型数据。
回归(regression):目标标记为连续性数值。

五、基于规则与基于模型的学习

1、基于规则的学习
机器学习导论
2、基于模型的学习
机器学习导论

六、机器学习数据集

机器学习导论

  • 样本:数据集的行;
  • 特征或属性:数据集的列(除最后一列);
  • 标签:数据集的最后一列;
  • 特征(属性)空间:由特征张成的属性空间;
  • 特征向量:构成特征空间的每一行的特征数据;
  • 训练数据:由输入x(特征)和输出r (标签)构成;
  • 训练 :从训练数据中学得模型的过程叫做“学习”或“训练”;
  • 测试样本:被预测的样本数据,由测试数据和类标签构成;
  • 测试数据:仅有输入的x构成,根据模型得到预测Label信息;
  • 预测:学习完模型之后,由测试数据代入模型进行预测得到预测值;
  • 误差:预测值与真实值的差距;
  • 特征转换:将非数值的特征转化为数值。

预测值与真实值的差距的评价——混淆矩阵
机器学习导论

  • 准确率:Accuracy = TP+TN/ALL
  • 精确率:Precision = TP/(TP+FP)
  • 召回率:Recall = TP/ (TP+FN)
  • 假正率:FPR(False negtive rate) = FP/ (FP+TN)
  • F1值(F1-Score):精确率和召回率的调和平均
    —F1 score=2/(1/Precision+1/Recall)=2Precisionrecall/ (Recall+Precision)
  • ROC曲线(受试者工作曲线):AUC(Area under Cruve)
    机器学习导论

七、机器学习分类

1、监督学习
训练数据集中的每个样本均有一个已知的输出项(类标label)。
机器学习导论
2、无监督学习
人们给机器一大堆没有分类标记的数据,让机器可以对数据分类、检测异常等。
机器学习导论
3、半监督学习
半监督学习就是提供了一条利用“廉价”的未标记样本的途径。
机器学习导论
4、强化学习
机器学习的一个重要分支,主要用来解决连续决策的问题。
机器学习导论
5、迁移学习
解决小数提集和个性化问题。

总结
机器学习导论

八、机器学习三要素

机器学习 = 模型+策略+算法
1、模型
模型通常分为决策函数或条件概率分布。

  • 由决策函数表示的模型为非概率模型
    机器学习导论
  • 由条件概率分布表示的模型为概率模型
    机器学习导论
    2、策略
    评估模型的好坏,使用损失函数来进行度量,模型给出的值与实际真实值存在的差别。
    损失函数度量模型一次预测的好坏,常用的损失函数有:
    机器学习导论
    经验风险:
    机器学习导论
    结构风险:
    机器学习导论
    结构风险最小化:
    机器学习导论
    3、算法:
    机器学习的算法就是求解最优化问题的算法。如果最优化问题有显示的解析解,这个最优化问题就比较简单,但通常这个解析解不存在,所以就需要利用数值计算的方法来求解。机器学习可以利用已有的最优化算法,也可以开发独自的最优化算法。

九、构建机器学习系统

机器学习导论

  • 首先明确:
    —该问题是否为机器学习问题?
    —该问题是机器学习哪方面的问题?一监督学习、无监督学习
  • 当拿到故据之后从下面两个角度思考问题:
    —从数据角度思考:
    根据具备的数据看能够做监督学习or无监督学习or半监督学习
    —从业务的角度思考:
    根据业务部门指定的业务方向,整理数据,从而建模
  • 特征工程:
    —对特征处理
    —对数据的处理
  • 数据+选择的算法=>模型
  • 通过测试集测试模型,给定最终模型
  • 如果有新数据,通过模型给出预测结果

十、模型的选择

模型的泛化能力
模型具有好的泛化能力指的是,模型不但在训练数据集上表现的效果很好,对于新数据的适应能力也有很好的效果。
1、欠拟合
模型在训练数据集上以及测试的效果都差。
机器学习导论

  • 产生的原因:模型过于简单。
  • 出现的场景:欠拟合一般出现在机器学习模型刚刚训练的时候。
  • 解决办法:
    (1)添加其他特征项;
    (2)添加多项式特征;
    (3)减少正则化参数。
    2、过拟合
    模型在训练集上的效果很好,但是测试效果很差。机器学习导论
  • 产生的原因:可能是模型太过于复杂、数据不纯、训练数据太少等造成。
  • 出现的场景:当模型优化到一定程度,就会出现过拟合的情况。
  • 解决办法:
    (1)重新清洗数据
    (2)增大训练的数据量
    (3)采用正则化方法对参数施加惩罚:常用的有L1正则和L2正则
    (4)采用dropout方法,即采用随机采样的方法训练模型,常用于神经网络算法中。
    奥卡姆剃刀原则
    给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。
    机器学习导论

十一、正则化

经验风险较小的模型可能较复杂,这时正则化项的值会较大,正则化的作用是选择经验风险与模型复杂度同时较小的模型。
模型选择的典型方法是正则化,正则化的一般形式如下:
机器学习导论
其中,第一项是经验风险,第二项是正则化项,正则化项可以取不同的形式。
L1范数
机器学习导论
L2范数
机器学习导论

十二、交叉验证

在机器学习中常用的精度测试方法叫做交叉验证。它的目的是得到可靠稳定的模型,具体做法是拿出大部分数据进行建模,留小部分样本用刚刚建立的模型进行预测,并求出这小部分样本预测的误差,交叉验证在克服过拟合问题上非常有效。
1、简单交叉验证
随机从最初的样本中选择部分形成验证数据,而剩下的当作训练数据。一般来说,被选作验证的数据少于三分之一。
2、K则交叉验证
K折交叉验证就是把样本分为K份,其中K-1份用来做训练建立模型,留剩下的一份来验证,交叉验证重复K次,每个子样本验证一次。
3、留一验证
留一验证只使用样本数据中的一项当作验证数据,而剩下的全作为训练数据,一直重复直到所有的样本都作验证数据一次。可以看出留一验证实际上就是K折交叉验证,只不过这里的K有点特殊,K为样本数据个数。