入门python代码系列:简单线性回归(二)
1.数据预处理
数据预处理的详细请参考前一篇博文(数据清洗与预处理),这里简单带过。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt #导入可视化模块
data=pd.read_csv('E:/data/studentscores.csv')
X=data.iloc[:,:1].values
y=data.iloc[:,1].values
#划分训练集与测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
2.使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
clf=LinearRegression()
clf=clf.fit(X_train,y_train)
3.预测结果
pred=clf.predict(X_test)
4.可视化
训练集以及结果可视化
plt.scatter(X_train,y_train,color='red')
plt.plot(X_train,clf.predict(X_train),color='blue')
plt.show()
测试集以及结果可视化
plt.scatter(X_test,y_test,color='black')
plt.plot(X_test,clf.predict(X_test),color='blue')
plt.show()