Deep Learning花书学习笔记-------第3章概率与信息论

3.1 为什么使用概率

频率派概率：概率直接与事件发生的频率相联系，如果一个事件发生的概率为p，p是可以通过反复试验由频率确定的。此时的概率p可以理解为一个参数可以通过试验确定。频率派进行推断时，依赖于数据的分布，以及试验观察获得的结果，通过似然函数进行推断。对于似然函数p(x|w)，频率派认为w是一个确定的参数，通过极大似然估计法确定w。
贝叶斯概率：概率用来表示一种信任度，表示一种确定性水平。此时p可以当做一个随机变量，变量表示事件的不确定程度。贝叶斯学派进行推断时，依赖于事件的总分布（先验），数据分布，试验观察的结果。采用后验概率进行推断，后验 = 先验 * 似然。p(w|x) = p(w)p(x|w)，贝叶斯学派采用最大化后验概率的方式确定w。

3.2 随机变量

3.3 概率分布

离散型变量和概率质量函数：离散型变量取值是离散的，概率分布为概率质量函数P(x)。
连续型变量和概率密度函数：连续型变量取值是连续的，概率分布为概率密度函数p(x)，。概率密度函数p(x)没有直接给出对某一状态的概率，相对的，它给出了落在面积为的无限小的区域内的概率为。x落到点集[a, b]内的概率为。

3.4 边缘概率

3.5 条件概率

性质： Deep Learning花书学习笔记-------第3章概率与信息论，。

3.6 条件概率的链式法则

Deep Learning花书学习笔记-------第3章概率与信息论。

3.7 独立性和条件独立性

独立性：两随机变量x和y的联合分布概率P(x, y)，可以写成两变量分布概率的乘积，P(x, y) = P(x)P(y)，则两变量是相互独立的。
条件独立性：对于随机变量x, y, z，若P(x, y | z) = P(x | z)P(y | z)，则成x，y对于给定z是条件独立的。也就是事件z发生时，x是否发生与y是否发生是无关的。

3.8 期望、方差和协方差

离散型随机变量： Deep Learning花书学习笔记-------第3章概率与信息论。连续型随机变量：。

离散型随机变量： Deep Learning花书学习笔记-------第3章概率与信息论，连续型随机变量：。

协方差：衡量两个变量线性相关的程度。。当x和y相互独立时，Cov(x, y) = 0。协方差衡量变量的相关程度时，受变量尺度的影响， 相关系数通过对变量归一化，衡量变量的相关性而不受变量尺度的影响。。

3.9 常用概率分布

Bernoulli分布（伯努利分布）：又名0-1分布，事件只有两个取值变量0和1，若P(x = 0) = p，则P(x = 1) = 1 - p。
二项分布：n重伯努利试验，每一次试验都是一个伯努利分布，对于事件x，发生的概率为p，不发生的概率为1 - p，进行n次随机试验，事件x发生k次的概率为：。
多项式分布：二项式分布的推广，随机变量的取值可以有m个，即进行n此伯努利试验，每次试验结果可以有m个，m个结果发生的概率互斥且和为1。
Multinoulli分布（范畴分布）：Multinoulli分布是指在具有k个不同状态的单个离散型随机变量上的分布，其中k是一个有限值。是指进行一次试验，得到各状态k的概率分布p。
高斯分布（正态分布）：

下图为正态分布的概率密度函数。

Deep Learning花书学习笔记-------第3章概率与信息论

Deep Learning花书学习笔记-------第3章概率与信息论

Dirac分布：Dirac delta函数，又称单位脉冲函数δ。单位脉冲函数是指除了0以外的点都等于0，在0点处取值无穷大，在整个定义域上的积分为1。Dirac分布是指概率密度函数为Dirac delta函数。。
分布的混合：混合模型是组合简单概率分布来生成更丰富的分布的一种策略。潜变量是不能直接观测到的随机变量。隐马尔可夫模型可用于推断潜变量。高斯混合模型：高斯混合模型是多个高斯分布的组合来刻画数据。

3.10 常用函数的有用性质

Deep Learning花书学习笔记-------第3章概率与信息论

Deep Learning花书学习笔记-------第3章概率与信息论

3.11 贝叶斯规则

贝叶斯规则，即贝叶斯公式 Deep Learning花书学习笔记-------第3章概率与信息论。

3.12 连续型变量的技术细节

3.13 信息论

信息熵：衡量事件所含的信息量的大小。对于一件确定的事情，信息量为0，事件的不确定程度最大时，信息量最大。此时的信息量称为信息熵。事件的总体不确定性为事件单个取值的不确定性的均值（期望）。若事件可能的取值为，对于取值的概率为，则事件的信息熵为：。
KL散度：也称为相对熵，信息增益。是描述随机变量x的两个概率分布P和Q之间的差异，记为KL(P||Q)。

3.14 结构化概率模型

结构化概率模型：图模型包括有向图和无向图。

Deep Learning花书学习笔记-------第3章 概率与信息论