Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 第二个程序支持向量机的分类(SVC)
前言:线性分类器训练的时候使用全部的数据集用于图像类别的划分。而支持向量机的分类器则不同,他认为仅仅小部分数据集对划分图像的类别起到作用,并设法找到这一小部分的数据用于最后的图像划分,使得划分的结果尽可能远离类别,有助于提升模型的广泛的适用性。可以看一下下面的图像。线性分类器得到的分类结果可能是一下三个线的任意一个,但是支持向量机得分类器尽力得到 w * x + b = 0的结果。
实现代码,使用的数据集mnist:
# -*- coding: utf-8 -*-
# @Time : 2019/4/7 22:55
# @Author : YYLin
# @Email : [email protected]
# @File : Second-Program-SVC-MNIST.py
# 第二个程序使用svm对手写体数据集进行分类
# 从sklearn.datasets里加载手写体数字集
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler # 对数据集进行标准化操作
from sklearn.svm import LinearSVC # 导入支持sklearn中的向量机操作
from sklearn.metrics import classification_report # 用于显示每一类别数据的预测效果
# 从通过数据加载器获得手写体数字的数码图像数据并储存在digits变量中。
digits = load_digits()
# 检视数据规模和特征维度。
print("digits数据集的形状以及长度,以及样式:",digits.data.shape, len(digits),type(digits))
# 随机选取75%的数据作为训练样本;其余25%的数据作为测试样本。
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.25, random_state=33)
# fit_transform的目的是对数据集进行拟合之后 在进行标准化转化
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)
# 定义一个LinearSVC的Class,然后调用fit是指对数据进行拟合操作
lsvc = LinearSVC()
lsvc.fit(X_train, y_train)
# 用测试数据估计模型的拟合效果 并输出结果
y_predict = lsvc.predict(X_test)
print('The Accuracy of Linear SVC is', lsvc.score(X_test, y_test))
print(classification_report(y_test, y_predict, target_names=digits.target_names.astype(str)))
程序运行的结果: