统计学习方法 6-逻辑斯谛回归与最大熵模型
逻辑斯谛回归模型
逻辑斯谛分布
二元逻辑斯谛回归模型
模型参数估计
多元逻辑斯谛回归
最大熵模型
最大熵原理
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
最大熵模型的定义
假设满足所有约束条件的模型集合为
定义在条件概率分布P(Y|X)上的条件熵为
则模型集合
最大熵模型的学习
最大熵模型的学习过程就是求解最大熵模型的过程。
约束最优化问题:
s.t.
最大熵模型:
其中,
极大似然估计
对偶函数的极大化等价于最大熵模型的极大似然估计。
模型学习的最优化算法
常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。
改进的迭代尺度法
最大熵模型的对数似然函数:
目标是通过极大似然估计学习模型参数,即求对数似然函数的极大值
IIS的想法是:假设最大熵模型当前的参数向量是
令
则A(\delta|\omega)= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \sum_y P_\omega(y|x) exp(f^#(x,y) \sum_{i=1}^n (\frac {f_i (x,y)} {f^#(x,y)})) \
≥ \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i (x,y)+1-\sum_x \tilde P(x,y) \sum_y P_\omega(y|x) \sum_{i=1}^n (\frac {f_i (x,y)} {f^#(x,y)}) exp(\delta_i,f^#(x,y))
令
拟牛顿法
最大熵模型:
目标函数:
梯度: