最大熵模型 maximum entropy model

  1. 熵:度量事物的不确定性,熵越大则越混乱。在信息论中,熵描述随机变量的不确定程度。
  2. 最大熵原理:
    最大熵原理为在满足约束条件的模型中选取熵最大的模型。可以理解为对一个随机事件的概率分布进行预测时,预测应当满足全部已知条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。
  3. 最大熵模型的学习
    对于给定的训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)}以及特征函数fi(x,y),i=1,2…,n,最大熵模型的学习等价于带约束的最优化问题:
    最大熵模型 maximum entropy model
    将约束最优化的原始问题转换为无约束最优化的对偶问题进行求解。
    最大熵模型 maximum entropy model
    (1)定义拉格朗日函数,其中w0,w1…wn为拉格朗日乘子
    最大熵模型 maximum entropy model
    由于L(P,w)是P的凸函数,原始问题的解与对偶问题的解是等价的。
    (2)求L(P,w)对P(y|x)的偏导,并且令其为0,解得Pw
    最大熵模型 maximum entropy model
    (3)求解对偶问题外部的极大化,即L(Pw,w)关于w的极大化问题,分别对L(Pw,w)对w0,w1,…,wn求偏导并令其为0.

logistic regression model和maximum entropy model都可以归为以似然函数为目标函数的最优化问题。