Deep Learning花书学习笔记-------第3章 概率与信息论
第3章 概率与信息论
3.1 为什么使用概率
- 频率派概率:概率直接与事件发生的频率相联系,如果一个事件发生的概率为p,p是可以通过反复试验由频率确定的。此时的概率p可以理解为一个参数可以通过试验确定。频率派进行推断时,依赖于数据的分布,以及试验观察获得的结果,通过似然函数进行推断。对于似然函数p(x|w),频率派认为w是一个确定的参数,通过极大似然估计法确定w。
- 贝叶斯概率:概率用来表示一种信任度,表示一种确定性水平。此时p可以当做一个随机变量,变量表示事件的不确定程度。贝叶斯学派进行推断时,依赖于事件的总分布(先验),数据分布,试验观察的结果。采用后验概率进行推断,后验 = 先验 * 似然。p(w|x) = p(w)p(x|w),贝叶斯学派采用最大化后验概率的方式确定w。
3.2 随机变量
3.3 概率分布
- 离散型变量和概率质量函数:离散型变量取值是离散的,概率分布为概率质量函数P(x)。
- 连续型变量和概率密度函数: 连续型变量取值是连续的,概率分布为概率密度函数p(x),
。概率密度函数p(x)没有直接给出对某一状态的概率,相对的,它给出了落在面积为
的无限小的区域内的概率为
。x落到点集[a, b]内的概率为
。
3.4 边缘概率
- 边缘概率分布:已知一组随机变量集合的联合概率分布
,该集合的一个子集的概率分布为边缘概率分布。离散型变量的边缘概率分布:
。连续型变量的边缘概率分布:
。
3.5 条件概率
- 条件概率:给定条件y = b的情况下,x = a发生的概率,即P(x = a | y = b)。定义:
。
性质:,
。
3.6 条件概率的链式法则
- 链式法则(乘法法则): 多维随机变量的联合概率分布,可以分解为只有一个变量的条件概率的乘积。
。
3.7 独立性和条件独立性
- 独立性:两随机变量x和y的联合分布概率P(x, y),可以写成两变量分布概率的乘积,P(x, y) = P(x)P(y),则两变量是相互独立的。
- 条件独立性:对于随机变量x, y, z,若P(x, y | z) = P(x | z)P(y | z),则成x,y对于给定z是条件独立的。也就是事件z发生时,x是否发生与y是否发生是无关的。
3.8 期望、方差和协方差
- 期望: 期望表示随机变量x以概率P(x)取不同的值的平均值。
离散型随机变量:。连续型随机变量:
。
- 方差:衡量随机变量取值在均值周围的散布程度。
离散型随机变量:,连续型随机变量:
。
- 协方差:衡量两个变量线性相关的程度。
。当x和y相互独立时,Cov(x, y) = 0。协方差衡量变量的相关程度时,受变量尺度的影响, 相关系数通过对变量归一化,衡量变量的相关性而不受变量尺度的影响。
。
3.9 常用概率分布
- Bernoulli分布(伯努利分布): 又名0-1分布,事件只有两个取值变量0和1,若P(x = 0) = p,则P(x = 1) = 1 - p。
- 二项分布:n重伯努利试验,每一次试验都是一个伯努利分布,对于事件x,发生的概率为p,不发生的概率为1 - p,进行n次随机试验,事件x发生k次的概率为:
。
- 多项式分布:二项式分布的推广,随机变量的取值可以有m个,即进行n此伯努利试验,每次试验结果可以有m个,m个结果发生的概率互斥且和为1。
- Multinoulli分布(范畴分布):Multinoulli分布是指在具有k个不同状态的单个离散型随机变量上的分布,其中k是一个有限值。是指进行一次试验,得到各状态k的概率分布p。
- 高斯分布(正态分布):
下图为正态分布的概率密度函数。
- 指数分布:指数分布是指事件事件间隔的概率。事件在时间x内发生的概率为:
- Dirac分布:Dirac delta函数,又称单位脉冲函数δ。单位脉冲函数是指除了0以外的点都等于0,在0点处取值无穷大,在整个定义域上的积分为1。Dirac分布是指概率密度函数为Dirac delta函数。
。
- 分布的混合:混合模型是组合简单概率分布来生成更丰富的分布的一种策略。潜变量是不能直接观测到的随机变量。隐马尔可夫模型可用于推断潜变量。高斯混合模型:高斯混合模型是多个高斯分布的组合来刻画数据。
3.10 常用函数的有用性质
- logistic sigmoid函数:
,取值范围为0-1,是神经网络中常用的**函数,但是容易导致梯度消失的问题。
- ReLu函数:
。神经网络常用的**函数,可以解决梯度消失的问题。
- softplus函数:
,是ReLu的平滑。
3.11 贝叶斯规则
贝叶斯规则,即贝叶斯公式。
3.12 连续型变量的技术细节
3.13 信息论
- 信息熵:衡量事件所含的信息量的大小。对于一件确定的事情,信息量为0,事件的不确定程度最大时,信息量最大。此时的信息量称为信息熵。事件的总体不确定性为事件单个取值的不确定性的均值(期望)。若事件可能的取值为
,对于取值的概率为
,则事件的信息熵为:
。
- KL散度:也称为相对熵,信息增益。是描述随机变量x的两个概率分布P和Q之间的差异,记为KL(P||Q)。
3.14 结构化概率模型
结构化概率模型:图模型包括有向图和无向图。