基于python使用sklearn通过线性支持向量机进行二维数据划分
一年前楼主还是在用java做数据分析,现在说一下用python做大致如何去做。
首先,python做数据有sklearn非常方便的包,集成了各种距离以及算法,这就意味着我们不需要花大笔的时间,使用tensorflow去创建模型和写算法了。对于使用python做数据的人来说,实在是方便了太多。这也导致了一个现象,就是使用python做数据,实现起来远比理解起来容易得多,可能内部的一些算法并不是理解的很透彻,只要知道大致知道对一个数据集,采用什么样的模型和算法,就可以调用相应的库函数。
原理什么的非常复杂,想要系统学习的建议去找详细的教程。这里主要以楼主的一个简单实现的范例,讲讲大致实现步骤,以供各位参考。
数据集以txt方式存储,格式大致如下:
7.108772 -0.986906 1 8.610639 2.046708 1 2.326297 0.265213 -1 3.634009 1.730537 -1 0.341367 -0.894998 -1
这是一个典型的二维数据集,划分成两类,以这种维度低划分少的数据集作为初学来说再合适不过了。
代码调用库如下:
from sklearn import svm import numpy as np from numpy import core import matplotlib.pyplot as plt
第一步,获取数据集。
def loadDataSet(filename): dataMat = []; labelMat = [] fr = open(filename) for line in fr.readlines(): lineArr = line.strip().split('\t') print(lineArr) dataMat.append([float(lineArr[0]), float(lineArr[1])]) labelMat.append(float(lineArr[2])) return np.array(dataMat), np.array(labelMat)
from numpy import core data, target = loadDataSet("testSet.txt") index1 = core.where(target == 1) X1 = data[index1] index2 = core.where(target == -1) X2 = data[index2]
通过python基本操作我们可以读取到数据,并且把数据按照已知的类别分成X1,X2。
第二步,调用线性支持向量机
clf = svm.SVC(kernel='linear') clf.fit(data, target)
第三步,获取w和斜率(w为划分线性方程wx+b=0的w)
w = clf.coef_[0] a = -w[0] / w[1]
第四步,画出划分图
xx = np.linspace(0, 10) yy = a * xx - (clf.intercept_[0]) / w[1]
b = clf.support_vectors_[0] yy_down = a * xx + (b[1] - a * b[0]) b = clf.support_vectors_[-1] yy_up = a * xx + (b[1] - a * b[0])
plt.figure(figsize=(8, 4)) plt.plot(xx, yy) plt.plot(xx, yy_down) plt.plot(xx, yy_up) plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80) plt.scatter(data[:, 0], data[:, 1], c=target, cmap=plt.cm.Paired) # [:,0]列切片,第0列 plt.axis('tight') plt.show()
效果图如下:
注,圆圈圈出的点为支持向量。
至此,数据集划分也算是全部完成了。
最后说几句心里话吧,一直以来,楼主都秉承着轻技术理论讲解,重代码讲解的风格,主要还是因为个人觉得理论的话,系统的去看一下技术文档或者书籍效果要更好。大部分看****的人应该都是遇到了技术问题,想看看具体怎么解决的。基于这样一厢情愿的想法吧,楼主的文章里基本不讲解代码为什么这么写,而是直接讲代码思路和步骤。如果大家在看文章的时候有什么意见的话,也欢迎大家积极地提出来,楼主会在今后的文章里继续改进。