Deep Learning花书学习笔记-------第3章 概率与信息论

第3章 概率与信息论

3.1 为什么使用概率

  • 频率派概率:概率直接与事件发生的频率相联系,如果一个事件发生的概率为p,p是可以通过反复试验由频率确定的。此时的概率p可以理解为一个参数可以通过试验确定。频率派进行推断时,依赖于数据的分布,以及试验观察获得的结果,通过似然函数进行推断。对于似然函数p(x|w),频率派认为w是一个确定的参数,通过极大似然估计法确定w。
  • 贝叶斯概率:概率用来表示一种信任度,表示一种确定性水平。此时p可以当做一个随机变量,变量表示事件的不确定程度。贝叶斯学派进行推断时,依赖于事件的总分布(先验),数据分布,试验观察的结果。采用后验概率进行推断,后验 = 先验 * 似然。p(w|x) = p(w)p(x|w),贝叶斯学派采用最大化后验概率的方式确定w。

3.2 随机变量 

3.3 概率分布 

  • 离散型变量和概率质量函数:离散型变量取值是离散的,概率分布为概率质量函数P(x)。
  • 连续型变量和概率密度函数: 连续型变量取值是连续的,概率分布为概率密度函数p(x),Deep Learning花书学习笔记-------第3章 概率与信息论。概率密度函数p(x)没有直接给出对某一状态的概率,相对的,它给出了落在面积为Deep Learning花书学习笔记-------第3章 概率与信息论的无限小的区域内的概率为Deep Learning花书学习笔记-------第3章 概率与信息论。x落到点集[a, b]内的概率为Deep Learning花书学习笔记-------第3章 概率与信息论

3.4 边缘概率 

  •  边缘概率分布:已知一组随机变量集合的联合概率分布Deep Learning花书学习笔记-------第3章 概率与信息论,该集合的一个子集的概率分布为边缘概率分布。离散型变量的边缘概率分布:Deep Learning花书学习笔记-------第3章 概率与信息论。连续型变量的边缘概率分布:Deep Learning花书学习笔记-------第3章 概率与信息论

3.5 条件概率 

  • 条件概率:给定条件y = b的情况下,x = a发生的概率,即P(x = a | y = b)。定义:Deep Learning花书学习笔记-------第3章 概率与信息论

性质:Deep Learning花书学习笔记-------第3章 概率与信息论Deep Learning花书学习笔记-------第3章 概率与信息论。 

 3.6 条件概率的链式法则

  • 链式法则(乘法法则): 多维随机变量的联合概率分布,可以分解为只有一个变量的条件概率的乘积。

Deep Learning花书学习笔记-------第3章 概率与信息论

3.7 独立性和条件独立性

  • 独立性:两随机变量x和y的联合分布概率P(x, y),可以写成两变量分布概率的乘积,P(x, y) = P(x)P(y),则两变量是相互独立的。
  • 条件独立性:对于随机变量x, y, z,若P(x, y | z) = P(x | z)P(y | z),则成x,y对于给定z是条件独立的。也就是事件z发生时,x是否发生与y是否发生是无关的。

3.8 期望、方差和协方差 

  • 期望: 期望表示随机变量x以概率P(x)取不同的值的平均值。

离散型随机变量:Deep Learning花书学习笔记-------第3章 概率与信息论。连续型随机变量:Deep Learning花书学习笔记-------第3章 概率与信息论

  • 方差:衡量随机变量取值在均值周围的散布程度。

离散型随机变量:Deep Learning花书学习笔记-------第3章 概率与信息论,连续型随机变量:Deep Learning花书学习笔记-------第3章 概率与信息论

  • 协方差:衡量两个变量线性相关的程度。Deep Learning花书学习笔记-------第3章 概率与信息论。当x和y相互独立时,Cov(x, y) = 0。协方差衡量变量的相关程度时,受变量尺度的影响, 相关系数通过对变量归一化,衡量变量的相关性而不受变量尺度的影响。Deep Learning花书学习笔记-------第3章 概率与信息论

3.9 常用概率分布 

  • Bernoulli分布(伯努利分布): 又名0-1分布,事件只有两个取值变量0和1,若P(x = 0) = p,则P(x = 1) = 1 - p。
  • 二项分布:n重伯努利试验,每一次试验都是一个伯努利分布,对于事件x,发生的概率为p,不发生的概率为1 - p,进行n次随机试验,事件x发生k次的概率为:Deep Learning花书学习笔记-------第3章 概率与信息论
  • 多项式分布:二项式分布的推广,随机变量的取值可以有m个,即进行n此伯努利试验,每次试验结果可以有m个,m个结果发生的概率互斥且和为1。
  • Multinoulli分布(范畴分布):Multinoulli分布是指在具有k个不同状态的单个离散型随机变量上的分布,其中k是一个有限值。是指进行一次试验,得到各状态k的概率分布p。
  • 高斯分布(正态分布):

    Deep Learning花书学习笔记-------第3章 概率与信息论

 下图为正态分布的概率密度函数。

Deep Learning花书学习笔记-------第3章 概率与信息论

  •  指数分布:指数分布是指事件事件间隔的概率。事件在时间x内发生的概率为:

Deep Learning花书学习笔记-------第3章 概率与信息论

  •  Dirac分布:Dirac delta函数,又称单位脉冲函数δ。单位脉冲函数是指除了0以外的点都等于0,在0点处取值无穷大,在整个定义域上的积分为1。Dirac分布是指概率密度函数为Dirac delta函数。Deep Learning花书学习笔记-------第3章 概率与信息论

    Deep Learning花书学习笔记-------第3章 概率与信息论

  • 分布的混合:混合模型是组合简单概率分布来生成更丰富的分布的一种策略。潜变量是不能直接观测到的随机变量。隐马尔可夫模型可用于推断潜变量。高斯混合模型:高斯混合模型是多个高斯分布的组合来刻画数据。 

3.10 常用函数的有用性质 

  • logistic sigmoid函数:Deep Learning花书学习笔记-------第3章 概率与信息论,取值范围为0-1,是神经网络中常用的**函数,但是容易导致梯度消失的问题。

Deep Learning花书学习笔记-------第3章 概率与信息论

  • ReLu函数:Deep Learning花书学习笔记-------第3章 概率与信息论。神经网络常用的**函数,可以解决梯度消失的问题。 
  • softplus函数:Deep Learning花书学习笔记-------第3章 概率与信息论,是ReLu的平滑。

Deep Learning花书学习笔记-------第3章 概率与信息论

 3.11 贝叶斯规则

贝叶斯规则,即贝叶斯公式Deep Learning花书学习笔记-------第3章 概率与信息论。 

3.12 连续型变量的技术细节

3.13 信息论 

  • 信息熵:衡量事件所含的信息量的大小。对于一件确定的事情,信息量为0,事件的不确定程度最大时,信息量最大。此时的信息量称为信息熵。事件的总体不确定性为事件单个取值的不确定性的均值(期望)。若事件可能的取值为Deep Learning花书学习笔记-------第3章 概率与信息论,对于取值的概率为Deep Learning花书学习笔记-------第3章 概率与信息论,则事件的信息熵为:Deep Learning花书学习笔记-------第3章 概率与信息论
  • KL散度:也称为相对熵,信息增益。是描述随机变量x的两个概率分布P和Q之间的差异,记为KL(P||Q)。

    Deep Learning花书学习笔记-------第3章 概率与信息论

3.14 结构化概率模型

结构化概率模型:图模型包括有向图和无向图。