《深度学习》花书训练营 个人笔记 week1-day2:无约束优化和有约束优化
任务标题:花书3-4章
任务简介:概率与信息论,数值计算
详细说明:
1. 概率与信息论
3.1-3.8:概率论基础概念
3.9.1-3.9.4,3.9.6:简单概率分布函数,混合分布
3.10:sigmoid、softplus函数性质
3.11:贝叶斯规则
3.13:信息论基础
3.14:概率图模型基础
2. 数值计算
4.1-4.2:上溢和下溢,病态条件
4.3:基于梯度的优化方法
4.4:约束优化,KKT方法
4.5:线性最小二乘
3. 学习目标:
a. 极大似然估计,误差的高斯分布与最小二乘估计的等价性
b. 最优化,无约束,有约束,拉格朗日乘子的意义,kkt松弛条件
c. 掌握基础概念
4. 作业:
a. 参考https://github.com/dibgerge/ml-coursera-python-assignments/blob/master/Exercise1/exercise1.ipynb,温习线性回归。
b. 一元线性回归的基本假设有哪些?
c.【可选】观看Harvard STAT110x概率论动画视频:https://www.youtube.com/playlist?list=PL2qHyNjtf9vO5fAiRKlBlXksc4B5TK_F0。
d. 【可选】Stephen Boyd凹优化三讲:http://stanford.edu/~boyd/papers/cvx_short_course.html。
一. 第一部分:极大似然估计
注:
1. 样本方差是总体方差的无偏估计。
2. 极大似然估计的方差是有偏估计,其方差如下图所示,引自文章点击此处
二.第二部分:无约束优化
1.梯度下降算法
注:
1. 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
2. 柯西不等式
由柯西不等式可知,当等号成立时,cosθ=1,此时两向量平行,所以有以上等式成立。
3.梯度下降算法中步长的选择问题:开始一般用梯度下降法,快逼近时,使用牛顿法。
4.牛顿法
主要思想是找下一个迭代点(最优点),第一种方法用求切线与x轴交点的方法,第二种方法用二次函数去逼近原函数,并用泰勒公式展开,取到二次项,下一个迭代点为二次函数图像的最低点。
三.第三部分:有约束优化
约束为不等式的情况
因为系数γ2 = 0,所以第二个约束条件不起作用(将x1,x2带入第二个约束条件可知,5≤6,不在边界上,所以不起作用)