Scikit-learn: iris数据集(1)数据预处理
iris数据集是机器学习中经典的花的分类的数据集。
iris数据集:
iris鸢尾花数据集是一个经典的数据集。在统计学习和机器学习的领域都是经典。
其具体内容:
- 3类共150条记录,每类各50个数据
- 每条记录都有4个特征:花萼长度Sepal Length 、 花萼宽度Sepal Width 、花萼长度Petal Length、 花萼宽度Petal Width,通过这4个特征就可以预测鸢尾花是数据哪个品种(有irirs-setosa、iris-versicolour、iris-virgincia品种)
iris数据集在机器学习中:
- 属于监督式学习应用:根据花的4个特征预测鸢尾花卉属于4个品种中的哪一个。
- 机器学习经典案例,其简单并具有代表性
基本操作特点:
- 区分开属性数据和结果数据
- 属性数据与结果数据都是量化的
- 运算过程中,属性数据与结果数据的类型都是Numpy数组
- 属性数据与结果数据的维度是对应的
code:
1.数据加载:
2.显示iris数据
3.想知道上面的numpy数组是什么含义:
4.目标是监督式的分类:
5.numpy数组是多行多列的:
维度就是shape
6.赋值给要运算的变量里面