Python数据处理之利用sklearn构建模型

Sklearn机器学习概述

Python数据处理之利用sklearn构建模型

概述:

什么是机器学习:
1、研究如何通过计算手段,利用经验来改善系统自身的性能;
2、机器学习就是从数据上建立模型的算法,即学习算法,有了算法之后,将经验(数据)提供给算法,算法就能够基于经验(数据)产生模型(学习结果);
3、当提供经验之外的数据时,模型就能够一句经验提供相应的判断(决策、识别等)。

案例:

Python数据处理之利用sklearn构建模型

Python数据处理之利用sklearn构建模型

Sklearn机器学习模型:

Python数据处理之利用sklearn构建模型

  • 有监督学习:
    利用数据及其对应标签来训练模型。
    类似于学生通过研究问题和参考答案来学习,在掌握问题和答案之间的对应关系后,学生可以自己给出相似问题的答案了。
    在有监督学习中,数据=(特征,标签)
  • 无监督学习:
    找出输入数据的模式(找规律,如哪些数据是相似的,将其归为一类)。
    在无监督学习中,数据=(特征,)

使用sklearn转换器预处理数据

数据

数据是经验的另一种说法,也是信息的载体。数据可分为:
1、结构化数据和非结构化数据
2、原始数据和加工数据
3、样本内数据和样本外数据

结构化数据是由二维表结构来逻辑表达和实现的数据。非结构化数据是没有预定义的数据,不便用数据库二维表来表现的数据。

数据获取

除了通过实际的系统获取数据,如火灾现场的环境数据等,还可以通过sklearn提供的数据集获取一些常用的数据,用于建模分析:

Python数据处理之利用sklearn构建模型
例:
获取乳腺癌数据
Python数据处理之利用sklearn构建模型

数据分类

Python数据处理之利用sklearn构建模型
Python数据处理之利用sklearn构建模型

数据预处理----标准化

Python数据处理之利用sklearn构建模型
Python数据处理之利用sklearn构建模型
Python数据处理之利用sklearn构建模型