机器学习入门篇(1)

机器学习的介绍

基于《scikit-leaen机器学习常用算法原理及编程实战》(黄永昌,机械工业出版社)做的一些学习笔记,方便未来使用时快速查找知识点和代码。

机器学习–定义

即为一个计算机程序,针对某个特定的任务,从经验中学习,并且越做越好。机器学习入门篇(1)

机器学习–应用

  1. 语音识别。类似于Siri中“speak-to-text”等,有基于模式识别的算法演变为基于统计模型的算法,从而大大提高了语音识别的准确率。
  2. 自然语言的处理。类似于在Siri把语音转化为文字之后,让计算机理解文字的语义并给出准确地回答。
  3. 推荐系统。类似于网易云的日推,计算机不断学习用户的使用习惯,从而刻画用户画像,再根据用户画像推荐用户感兴趣的商品和文章。
  4. 人脸识别。一般应用于地铁、门禁和校园等场景,关键技术包括:人脸检测、特征提取、人脸比对等等。

机器学习–分类

机器学习入门篇(1)

  1. 有监督学习。通过大量已知的输入和输出相配队的数据,让计算机从中学习规律,并针对一个新的输入作出合理的输出预测。
  2. 无监督学习。通过大量的无标记数据,分析数据本身的内在特点和结构。
  3. 强化学习。开发系统或代理,通过它们与环境的交互来提高预测性能。
    具体分类解析可参照:一文看懂机器学习3种类型的概念、根本差别及应用

机器学习–步骤

机器学习入门篇(1)

  1. 数据采集。包括训练样本(数据集)、特征,特征越全,数据越多,模型效果越佳,预测越准确。
  2. 当搜集的数据的数据与真实数据出现偏差时,可以进行数据标记,包括:人工标记、自动标记。比如垃圾邮件的过滤系统。
  3. 数据清洗包括:单位统一、去掉重复或噪声数据,让数据具备结构化特征,方便计算机识别。
  4. 特征选择包括:人工选择、模型筛选(PCA算法等)。
  5. 一般会按照8:2或7:3将数据集划分为训练集和测试集,以测试模型的准确性。注:更合理的是把数据集分为3类:训练集、测试集、交叉验证集。
  6. 模型评估包括:训练时长、数据集是否足够、模型准确性、应用性能是否满足要求等等。