批量梯度下降法BGD
批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新,其数学形式如下:
(1) 对上述的能量函数求偏导:

(2) 由于是最小化风险函数,所以按照每个参数θθ的梯度负方向来更新每个θθ:

具体的伪代码形式为:
repeat{

(for every j=0, ... , n)
}
从上面公式可以注意到,它得到的是一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果样本数目mm很大,那么可想而知这种方法的迭代速度!所以,这就引入了另外一种方法,随机梯度下降。
优点:全局最优解;易于并行实现;
缺点:当样本数目很多时,训练过程会很慢。
从迭代的次数上来看,BGD迭代的次数相对较少。其迭代的收敛曲线示意图可以表示如下:

随机梯度下降法SGD
由于批量梯度下降法在更新每一个参数时,都需要所有的训练样本,所以训练过程会随着样本数量的加大而变得异常的缓慢。随机梯度下降法(Stochastic Gradient Descent,简称SGD)正是为了解决批量梯度下降法这一弊端而提出的。
将上面的能量函数写为如下形式:

利用每个样本的损失函数对θθ求偏导得到对应的梯度,来更新θθ:

具体的伪代码形式为:
1. Randomly shuffle dataset;
2. repeat{
for i=1, ... , mm{

(for j=0, ... , nn)
}
}
随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。
优点:训练速度快;
缺点:准确度下降,并不是全局最优;不易于并行实现。
从迭代的次数上来看,SGD迭代的次数较多,在解空间的搜索过程看起来很盲目。其迭代的收敛曲线示意图可以表示如下:

小批量梯度下降法MBGD
有上述的两种梯度下降法可以看出,其各自均有优缺点,那么能不能在两种方法的性能之间取得一个折衷呢?即,算法的训练过程比较快,而且也要保证最终参数训练的准确率,而这正是小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD)的初衷。
MBGD在每次更新参数时使用b个样本(b一般为10),其具体的伪代码形式为:
Say b=10, m=1000.
Repeat{
for i=1, 11, 21, 31, ... , 991{

(for every j=0, ... , nn)
}
}
举个例子:
假设我们已知门店销量为
门店数X
|
实际销量Y
|
1
|
13
|
2
|
14
|
3
|
20
|
4
|
21
|
5
|
25
|
6
|
30
|
我们如何预测门店数X与Y的关系式呢?假设我们设定为线性:Y=a0+a1X
接下来我们如何使用已知数据预测参数a0和a1呢?这里就是用了梯度下降法:

左侧就是梯度下降法的核心内容,右侧第一个公式为假设函数,第二个公式为损失函数。
其中
表示假设函数的系数,
为学习率。
对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的导数,即:

直观的表示,如下:

python代码实现:
import sys
#Training data set
#each element in x represents (x1)
x = [1,2,3,4,5,6]
#y[i] is the output of y = theta0+ theta1 * x[1]
y = [13,14,20,21,25,30]
#设置允许误差值
epsilon = 1
#学习率
alpha = 0.01
diff = [0,0]
max_itor = 20
error1 = 0
error0 =0
cnt = 0
m = len(x)
#init the parameters to zero
theta0 = 0
theta1 = 0
while 1:
cnt=cnt+1
diff = [0,0]
for i in range(m):
diff[0]+=theta0+ theta1 * x[i]-y[i]
diff[1]+=(theta0+theta1*x[i]-y[i])*x[i]
theta0=theta0-alpha/m*diff[0]
theta1=theta1-alpha/m*diff[1]
error1=0
for i in range(m):
error1+=(theta0+theta1*x[i]-y[i])**2
if abs(error1-error0)< epsilon:
break
print('theta0 :%f,theta1 :%f,error:%f'%(theta0,theta1,error1))
if cnt>20:
print ('cnt>20')
break
print('theta0 :%f,theta1 :%f,error:%f'%(theta0,theta1,error1))
结果如下:
theta0 :0.205000,theta1 :0.816667,error:1948.212261
theta0 :0.379367,theta1 :1.502297,error:1395.602361
theta0 :0.527993,theta1 :2.077838,error:1005.467313
theta0 :0.654988,theta1 :2.560886,error:730.017909
theta0 :0.763807,theta1 :2.966227,error:535.521394
theta0 :0.857351,theta1 :3.306283,error:398.166976
theta0 :0.938058,theta1 :3.591489,error:301.147437
theta0 :1.007975,theta1 :3.830615,error:232.599138
theta0 :1.068824,theta1 :4.031026,error:184.147948
theta0 :1.122050,theta1 :4.198911,error:149.882851
theta0 :1.168868,theta1 :4.339471,error:125.631467
theta0 :1.210297,theta1 :4.457074,error:108.448654
theta0 :1.247197,theta1 :4.555391,error:96.255537
theta0 :1.280286,theta1 :4.637505,error:87.584709
theta0 :1.310171,theta1 :4.706007,error:81.400378
theta0 :1.337359,theta1 :4.763073,error:76.971413
theta0 :1.362278,theta1 :4.810533,error:73.781731
theta0 :1.385286,theta1 :4.849922,error:71.467048
theta0 :1.406686,theta1 :4.882532,error:69.770228
theta0 :1.426731,theta1 :4.909448,error:68.509764
theta0 :1.445633,theta1 :4.931579,error:67.557539
cnt>20
theta0 :1.445633,theta1 :4.931579,error:67.557539
[Finished in 0.2s]
可以看到学习率在0.01时,error会正常下降。图形如下:(第一张图是学习率小的时候,第二张图就是学习率较大的时候)

所以我们再调整一下新的学习率看看是否能看到第二张图:
我们将学习率调整成了0.3的时候得到以下结果:
theta0 :6.150000,theta1 :24.500000,error:38386.135000
theta0 :-15.270000,theta1 :-68.932500,error:552053.226569
theta0 :67.840125,theta1 :285.243875,error:7950988.401277
theta0 :-245.867981,theta1 :-1059.347887,error:114525223.507401
theta0 :946.357695,theta1 :4043.346381,error:1649619133.261223
theta0 :-3576.913313,theta1 :-15323.055232,error:23761091159.680252
theta0 :13591.518674,theta1 :58177.105053,error:342254436006.869995
theta0 :-51565.747234,theta1 :-220775.317546,error:4929828278909.234375
theta0 :195724.210360,theta1 :837920.911885,error:71009180027939.656250
theta0 :-742803.860227,theta1 :-3180105.158068,error:1022815271242165.875000
theta0 :2819153.863813,theta1 :12069341.864380,error:14732617369683060.000000
theta0 :-10699395.102930,theta1 :-45806250.675551,error:212208421856953728.000000
theta0 :40606992.787278,theta1 :173846579.256281,error:3056647245837464576.000000
theta0 :-154114007.118001,theta1 :-659792674.286440,error:44027905696333684736.000000
theta0 :584902509.168162,theta1 :2504083725.690765,error:634177359734604038144.000000
theta0 :-2219856149.407590,theta1 :-9503644836.328783,error:9134682134868024885248.000000
theta0 :8424927779.709908,theta1 :36068788150.345154,error:131575838248146814631936.000000
theta0 :-31974778105.915466,theta1 :-136890372077.920685,error:1895216599231190653730816.000000
theta0 :121352546013.825867,theta1 :519534337912.329712,error:27298674329760760684609536.000000
theta0 :-460564272592.117981,theta1 :-1971767072878.787598,error:393209736799816196514906112.000000
theta0 :1747960435714.394287,theta1 :7483365594965.919922,error:5663787744653302294061776896.000000
cnt>20
theta0 :1747960435714.394287,theta1 :7483365594965.919922,error:5663787744653302294061776896.000000
[Finished in 0.2s]
可以看到theta0和theta1都在跳跃,与预期相符。
上文使用的是批量梯度下降法,如遇到大型数据集的时候这种算法非常缓慢,因为每次迭代都需要学习全部数据集,后续推出了随机梯度下降,其实也就是抽样学习的概念。
参考文献