机器学习--第十三讲--梯度下降
1.数据的介绍
我们的数据集pga.csv包含专业高尔夫球手的两列统计数据,accuracy 和distance。 accuracy 是测量在球场上多次挥杆的命中百分比,distance是测量平均挥杆球的距离。我们的目标是使用距离来预测精度。
对于机器学习算法而言,数据被使用之前,重要的是规模,或者正规化。这里我们在球场上测量的distance,和测量的百分比accuracy,这两个领域非常不同,会学习算法的时候产生偏差。许多算法计算两者间的欧氏距离。如果一个特征会远大于另一个特征,那么距离就会偏向特定的特征。使数据正规化,对每个值,减去每个平均值,然后除以标准差
规范数据后,绘制数据视觉图
说明:
这一步是演示,练习代码或者直接跳转到下一步
import pandas
import matplotlib.pyplot as plt
%matplotlib inline
#read data from csv
pga=pandas.read_csv("pga.csv")
#normalize the data
pga.distance=(pga.distance-pga.distance.mean())/pga.distance.std()
pga.accuracy=(pga.accurac-pga.accuracy.mean())/pga.accuracy.std()
print(pga.head())
plt.scatter(pga.distance,pga.accuracy)
plt.xlabel("normalized distance")
plt.ylabel("normalized accuracy")
plt.show()
转载于:https://my.oschina.net/Bettyty/blog/780033