最大熵模型 maximum entropy model

熵：度量事物的不确定性，熵越大则越混乱。在信息论中，熵描述随机变量的不确定程度。
最大熵原理：
最大熵原理为在满足约束条件的模型中选取熵最大的模型。可以理解为对一个随机事件的概率分布进行预测时，预测应当满足全部已知条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。
最大熵模型的学习
对于给定的训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)}以及特征函数fi(x,y),i=1,2…,n,最大熵模型的学习等价于带约束的最优化问题：

将约束最优化的原始问题转换为无约束最优化的对偶问题进行求解。

（1）定义拉格朗日函数，其中w0,w1…wn为拉格朗日乘子

由于L(P,w)是P的凸函数，原始问题的解与对偶问题的解是等价的。
（2）求L(P,w)对P(y|x)的偏导，并且令其为0，解得Pw

（3）求解对偶问题外部的极大化，即L(Pw,w)关于w的极大化问题，分别对L(Pw,w)对w0,w1,…,wn求偏导并令其为0.

logistic regression model和maximum entropy model都可以归为以似然函数为目标函数的最优化问题。