基于python使用sklearn通过线性支持向量机进行二维数据划分

一年前楼主还是在用java做数据分析，现在说一下用python做大致如何去做。

首先，python做数据有sklearn非常方便的包，集成了各种距离以及算法，这就意味着我们不需要花大笔的时间，使用tensorflow去创建模型和写算法了。对于使用python做数据的人来说，实在是方便了太多。这也导致了一个现象，就是使用python做数据，实现起来远比理解起来容易得多，可能内部的一些算法并不是理解的很透彻，只要知道大致知道对一个数据集，采用什么样的模型和算法，就可以调用相应的库函数。

原理什么的非常复杂，想要系统学习的建议去找详细的教程。这里主要以楼主的一个简单实现的范例，讲讲大致实现步骤，以供各位参考。

数据集以txt方式存储，格式大致如下：

7.108772    -0.986906  1
8.610639   2.046708   1
2.326297   0.265213   -1
3.634009   1.730537   -1
0.341367   -0.894998  -1

这是一个典型的二维数据集，划分成两类，以这种维度低划分少的数据集作为初学来说再合适不过了。

代码调用库如下：

from sklearn import svm
import numpy as np
from numpy import core
import matplotlib.pyplot as plt

第一步，获取数据集。

def loadDataSet(filename):
    dataMat = []; labelMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        print(lineArr)
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return np.array(dataMat), np.array(labelMat)

from numpy import core
data, target = loadDataSet("testSet.txt")
index1 = core.where(target == 1)
X1 = data[index1]
index2 = core.where(target == -1)
X2 = data[index2]

通过python基本操作我们可以读取到数据，并且把数据按照已知的类别分成X1，X2。

第二步，调用线性支持向量机

clf = svm.SVC(kernel='linear')
clf.fit(data, target)

第三步，获取w和斜率（w为划分线性方程wx+b=0的w）

w = clf.coef_[0]
a = -w[0] / w[1]

第四步，画出划分图

xx = np.linspace(0, 10)
yy = a * xx - (clf.intercept_[0]) / w[1]

b = clf.support_vectors_[0]
yy_down = a * xx + (b[1] - a * b[0])
b = clf.support_vectors_[-1]
yy_up = a * xx + (b[1] - a * b[0])

plt.figure(figsize=(8, 4))
plt.plot(xx, yy)
plt.plot(xx, yy_down)
plt.plot(xx, yy_up)
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80)
plt.scatter(data[:, 0], data[:, 1], c=target, cmap=plt.cm.Paired)  # [:，0]列切片，第0列
plt.axis('tight')
plt.show()

效果图如下：

基于python使用sklearn通过线性支持向量机进行二维数据划分

注，圆圈圈出的点为支持向量。

至此，数据集划分也算是全部完成了。

最后说几句心里话吧，一直以来，楼主都秉承着轻技术理论讲解，重代码讲解的风格，主要还是因为个人觉得理论的话，系统的去看一下技术文档或者书籍效果要更好。大部分看****的人应该都是遇到了技术问题，想看看具体怎么解决的。基于这样一厢情愿的想法吧，楼主的文章里基本不讲解代码为什么这么写，而是直接讲代码思路和步骤。如果大家在看文章的时候有什么意见的话，也欢迎大家积极地提出来，楼主会在今后的文章里继续改进。

基于python使用sklearn通过线性支持向量机进行二维数据划分

相关推荐