机器学习--第十三讲--梯度下降

1.数据的介绍

我们的数据集pga.csv包含专业高尔夫球手的两列统计数据,accuracy 和distance。 accuracy 是测量在球场上多次挥杆的命中百分比,distance是测量平均挥杆球的距离。我们的目标是使用距离来预测精度。

对于机器学习算法而言,数据被使用之前,重要的是规模,或者正规化。这里我们在球场上测量的distance,和测量的百分比accuracy,这两个领域非常不同,会学习算法的时候产生偏差。许多算法计算两者间的欧氏距离。如果一个特征会远大于另一个特征,那么距离就会偏向特定的特征。使数据正规化,对每个值,减去每个平均值,然后除以标准差

规范数据后,绘制数据视觉图

说明:

这一步是演示,练习代码或者直接跳转到下一步

import  pandas 

import matplotlib.pyplot as plt

%matplotlib inline

#read data from csv

pga=pandas.read_csv("pga.csv")

#normalize the data

pga.distance=(pga.distance-pga.distance.mean())/pga.distance.std()

pga.accuracy=(pga.accurac-pga.accuracy.mean())/pga.accuracy.std()

print(pga.head())

plt.scatter(pga.distance,pga.accuracy)

plt.xlabel("normalized distance")

plt.ylabel("normalized accuracy")

plt.show()

机器学习--第十三讲--梯度下降

 

 

转载于:https://my.oschina.net/Bettyty/blog/780033