入门python代码系列:简单线性回归(二)

1.数据预处理

数据预处理的详细请参考前一篇博文(数据清洗与预处理),这里简单带过。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt  #导入可视化模块

data=pd.read_csv('E:/data/studentscores.csv')
X=data.iloc[:,:1].values
y=data.iloc[:,1].values

#划分训练集与测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)

2.使用简单线性回归模型来训练

from sklearn.linear_model import LinearRegression
clf=LinearRegression()
clf=clf.fit(X_train,y_train)

3.预测结果

pred=clf.predict(X_test)

4.可视化

训练集以及结果可视化

plt.scatter(X_train,y_train,color='red')
plt.plot(X_train,clf.predict(X_train),color='blue')
plt.show()

入门python代码系列:简单线性回归(二)

测试集以及结果可视化

plt.scatter(X_test,y_test,color='black')
plt.plot(X_test,clf.predict(X_test),color='blue')
plt.show()

入门python代码系列:简单线性回归(二)