Python数据处理之利用sklearn构建模型
利用sklearn构建模型
Sklearn机器学习概述
概述:
什么是机器学习:
1、研究如何通过计算手段,利用经验来改善系统自身的性能;
2、机器学习就是从数据上建立模型的算法,即学习算法,有了算法之后,将经验(数据)提供给算法,算法就能够基于经验(数据)产生模型(学习结果);
3、当提供经验之外的数据时,模型就能够一句经验提供相应的判断(决策、识别等)。
案例:
Sklearn机器学习模型:
- 有监督学习:
利用数据及其对应标签来训练模型。
类似于学生通过研究问题和参考答案来学习,在掌握问题和答案之间的对应关系后,学生可以自己给出相似问题的答案了。
在有监督学习中,数据=(特征,标签) - 无监督学习:
找出输入数据的模式(找规律,如哪些数据是相似的,将其归为一类)。
在无监督学习中,数据=(特征,)
使用sklearn转换器预处理数据
数据
数据是经验的另一种说法,也是信息的载体。数据可分为:
1、结构化数据和非结构化数据
2、原始数据和加工数据
3、样本内数据和样本外数据
结构化数据是由二维表结构来逻辑表达和实现的数据。非结构化数据是没有预定义的数据,不便用数据库二维表来表现的数据。
数据获取
除了通过实际的系统获取数据,如火灾现场的环境数据等,还可以通过sklearn提供的数据集获取一些常用的数据,用于建模分析:
例:
获取乳腺癌数据