简单理解优化的尺度迭代法(IIS)
文章目录
前言
本篇分别从IIS算法流程和IIS算法中所涉及公式的推导这两个方面来介绍IIS,旨在读者能理解如何使用IIS算法,以及掌握算法步骤中公式的来龙去脉。
为了保证阅读效率,一些前置知识点会被安排在文章末尾。
有任何的建议欢迎在评论区留言,随时看随时修改哦~谢谢大家【鞠躬
一、IIS算法流程
首先,确定模型输入输出。
首先初始化,将权重初值设为0。
然后对K进行遍历:
已知在CRF中对于不同的x,y,会有不同的T,为了在下文中使用常量公式,我们定义松弛特征,即定义一个足够大的常量S
当S足够大,且s(x,y)≥0成立,这时特征总数可以取S
所以,可知对转移特征的更新方程为
同时,对状态特征的更新方程为
附带一提,下面两个期望值分别是样本分布下特征函数更新方程的期望值以及联合分布下特征函数的期望值:
P上面有小波浪的是样本分布,没有小波浪的是联合分布
到此为止称为算法S,只要将每一个更新方程的图片中涉及到的两种期望值代入中间一行δ的等式中,即可得到δ
得到极大改变量δk以后迭代wk
直到wk收敛,就可以得到权重参数极大值了。
但是,在算法S中需要使常数S足够大,那么这样一来每一步迭代的向量增量就会变大,算法收敛会变慢,因此我们引入算法T。
首先,算法T对每个观测序列X计算其特征总数最大值:
就不用再毫无头绪的定义S常量了。
这时关于转移特征参数的更新方程可以写成:
接下来举例如何运用牛顿法求解:
得到极大改变量δk以后迭代wk
当wk趋于收敛时(δk越来越小),即可停止迭代,如果没有收敛,将新wk代入更新方程继续迭代。
二、IIS算法公式推导
1.对数似然函数改变量
将最大熵模型分别以Pw+δ和Pw代入上图第一行右边公式,得到第二行公式。
利用不等式
我们可以得到一个下界,和BW算法相似,如果A≥B,那么B越大,A就越大
把对数似然函数改变量L(w+δ)-L(w),代入不等式得:
右端记为A(δ|w),得:
于是有:
如果能找到适当的δ使得下界提高,那么对数似然函数也会提高,就能逐渐逼近对数似然函数的极大值
可是当前下界A中的δ是一个向量,里面有一串变量,同时对向量进行优化很难,所以IIS便希望一次只优化其中一个变量δi,而吧其他变量δj视为常量,i≠j。
于是IIS引进了一个量
因为f是二值函数,所以在表示特征在(x,y)出现的次数时,使用f#(x,y)来表示,在实际公式中会选用任意大写字母(T,S,M)来表示他。
这个jensen’s 不等式的前提条件是函数为凸函数【这里我们的函数是指数函数,所以函数为凸函数】
,以及
所以A下界函数可以改写为
如我们之前所说,为了在多个变量的等式中求δi,需要对δi求偏导数。因此
在该式子中除了δi外不再含有任何其他变量,令偏导数结果为0,得到
这便是在求转移特征函数参数极大值,和状态特征函数参数极大值时,公式的来源。
2.特征数为常量与变量的不同算法
因为该函数的意义是特征出现的个数,因为特征函数结果为1意味着特征出现,0意味着特征没有出现,所以只要对特征函数集求和就可以得到特征出现的个数了。
那么这里f#(x,y)的结果如果是常数,即不管x,y取什么值,f#(x,y)的结果都不变,那么可以表示成
如果随着x,y的取值改变,f#(x,y)的结果也在改变,那就要使用牛顿法,这里直接套用牛顿法公式。
3.特征方程的下标
这里我再补充一下关于特征函数k,l,K1,K2的知识点
图片引自知乎-条件随机场中特征函数如何理解?-隔壁小王
三、前置内容
a) 两种分布:样本分布、联合分布
样本分布,联合分布是两种符号哦,P上加一个波浪号~的是样本分布,就只是总体的一部分,他可能有代表性,也可能充满着特例。然后联合分布是总体的概率分布。
b) 最大熵模型
最大熵模型的公式为:
和CRF模型很像
CRF模型的公式为:
c) 对数似然函数
对数似然函数的公式为:
其他算法中的对数似然函数公式:
四、引用
1)李航 (2011). 《统计学习方法》