【知识框架】优化方法基本原理:梯度下降法、牛顿法、拉格朗日对偶法
梯度下降法
梯度下降法是求解无约束最优化问题的一种最常用方法,实现简单,每一步需要求解目标函数的梯度向量。
以二元函数 z=f(x,y) 等值线俯视图为例:
牛顿法和拟牛顿法
牛顿法是求解无约束最优化问题的常用方法,收敛速度快,每一步迭代需要求解目标函数的海森矩阵的逆矩阵,计算较为复杂。
拟牛顿法则用正定矩阵近似海森矩阵的逆矩阵,简化了牛顿法。
海森矩阵(Hessian Matrix)是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。
梯度下降法 | 牛顿法/拟牛顿法 | 拉格朗日对偶性 | |
解决问题 | 无约束最优化问题 | 约束最优化问题 | |
目标函数要求 | 函数一阶偏导数存在 | 函数二阶偏导数存在 | 拉格朗日对偶性 |
思想 | 通过取负梯度来迭代更新,寻找极值点 | 利用极小值的必要条件——偏导数为0——来迭代更新,寻找极值点 | 拉格朗日对偶性 |
拉格朗日对偶性
在约束最优化问题中,利用拉格朗日对偶性将原始问题转换为对偶问题。
1. 原始问题
最优化问题:
引入拉格朗日函数得到:
定义问题:
2. 对偶问题
定义对偶问题与对偶问题的最优值
3.原始问题和对偶问题的关系
a. 若原始问题与对偶问题都有最优解,则:
d*=p*
b. 假设f(x)和c(x)是凸函数,h(x)是仿射函数;并假设不等式约束是严格可行的,即存在x,对所有c(x)<0,则存在x*是原始问题最优解,alpha和beta是对偶问题的解,并且有:
c. KKT条件
假设f(x)和c(x)是凸函数,h(x)是仿射函数;并假设不等式约束是严格可行的,则x,alpha,beta分别是原始问题和对偶问题的解的充要条件可以归结为——KKT条件。