[李宏毅-机器学习]梯度下降Graident Descent
AdaGrad
每个参数都有自己的learning rate
梯度下降最好是一步到达local minim
所以最好的step是一阶导数/二阶导数
adagrad就是使用原来所有的微分平方和代替二次微分,能够减少二次微分计算量
???为什么可以这么做?还不是很懂 如何代替
随机梯度下降Stochastic Gradient descent
随机选取一个样本,进行gradient descent
Feature scaling
其实就是归一化,把各个特征归一化到同一范围
梯度下降理论
在x很接近x0的时候,可以使用一阶导数近似
考虑泰勒展开二次导数-牛顿法