深度学习中的数学(三)——概率统计
一、事件
1.1 随机事件
随机事件:在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。
样本点:随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点。
样本空间:全体样本点组成的集合称为这个试验的样本空间Ω。
必然事件:样本空间Ω也是其自身的一个子集,Ω也是一个“随机”事件,每次试验中必有Ω中的一个样本点出现,必然发生。
不可能事件:记做∅,空集∅也是样本空间的一个子集,∅也是一个特殊的“随机”事件,不包含任何样本点,不可能发生。
空集:空集是指不含任何元素的集合。空集是任何集合的子集,是任何非空集合的真子集。空集不是五;它是内部没有元素的集合。
全集:如果一个集合含有我们所研究问题中涉及的所有元素,那么就称这个集合为全集(通常也把给定的集合称为全集),通常记做U。
1.2 事件的运算
包含:事件A是事件B的子事件,事件A发生必然导致事件B发生,事件A的样本点都是事件B的样本点,记做A⊂B,也叫做A包含于B,或B包含A。
相等:若A⊂B且B⊂A,那么A=B,称A和B为相等事件,事件A与事件B含有相同的样本点。
和事件:即事件A发生或事件B发生,事件A与事件B至少一个发生,由事件A与事件B所有样本点组成,记做A∪B或A+B,也叫做A和B的并集。
积事件:即事件A和事件B同时发生,由事件A与事件B的公共样本点组成,记做AB或A∩B,也叫做A和B的交集。
差事件:即事件A发生且事件B不发生,是由属于事件A但不属于事件B的样本点组成,记做A—B,也叫做A和B的差集。
互斥事件:事件A与事件B,AB=∅,事件A与事件B不能同时发生,事件A与事件B没有公共的样本点。
事件A的对立事件:若A交B为不可能事件,A并B为必然事件,那么称A事件与事件B互为对立事件,其含义是:事件A和事件B必有一个且仅有一个发生。
二、排列与组合
2.1 排列(有序)
定义:从给定个数的元素中取出指定个数的元素进行排序。
2.2 组合(无序)
定义:从给定个数的元素中取出指定个数的元素,不考虑排序。
三、概率
3.1 古典概率
定义:古典概率通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。(可以按频次理解,依据就是大数定理)
大数定理:在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。重复次数越多,概率越准确。偶然中包含着某种必然。
3.2 抽样
(1)放回抽样
(2)不放回抽样
3.3 条件概率、联合概率、边缘概率
条件概率:事件A在另外一个事件B已经发生条件下的发生概率,记为P(A|B)。
联合概率:在多元的概率分布中多个随机变量分别满足各自条件的概率,记为P(AB)。
边缘概率:在多元的概率分布中单个随机变量概率,记为P(A)。
机器学习模型与概率之间的关系:判别模型时对应条件概率(比较容易求解),生成模型时对应联合概率(不容易求解,论文常见)。
生成模型较难,从数据角度来讲,样本表达是P(y|x),x是采集来的,y是打的标签,比较容易求解,真实数据的表达是P(yx),xy同时在一起的概率,这种情况是无限的。
以图片为例理解,判别模型为取一定的样本,判断其为猫,有一定数量被判别为猫,概率容易求得;生成模型为取无穷的样本,判断其为猫的数量也为无穷,概率不容易求得。
3.4 概率运算
一个事件A发生的概率比较难求解,我们需要找到一个隐变量B(找到一个控制生成方向的变量),即P(AB)和的概率即为事件A发生的概率,而P(AB)也不容易求解,又可以写为P(A|B)P(B),这样我们就找到一个事件发生的原因,可以从根本控制它发生的概率。
3.5 事件独立性
定义:设A、B为随机事件,若同时发生的概率等于各自发生的概率的乘积,则A、B相互独立。
举例:头发与身高(二者变化没有关系,一个变量在变不影响更一个概率)
3.6 事件互斥性
设A、B为随机事件,A或B发生的概率等于分别发生概率的和,则A、B互斥。
3.7 全概率
理解:
对应的机器学习模型:碗相当于类别,球相当于数据,可以把B理解为类别,把A理解为数据。
3.8 贝叶斯定理
从概率的角度看AI:贝叶斯定理
用贝叶斯定理解释AI的学习过程: AI是学习参数w,根据数据来学习w,即P(w|D)=P(D|w)P(w)/P(D)。P(D)已知,数据通过采样求得;P(D|w)通过模型得到;P(w)满足某种条件,叫做先验(经验)。如智能鉴黄系统,可以给一个皮肤占比的先验,给突点检测的先验。
贝叶斯定理的一个应用:垃圾邮件分类
3.9 朴素贝叶斯
朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。
四、概率分布
4.1 概率分布
概率分布:表述随机变量取值的概率规律。
随机变量的概率取值范围[0,1]。
所有取值概率的和必须为1。
离散分布(筛子的点数)
连续概率分布(角度)
概率密度
4.2 离散分布
4.2.1 伯努利分布(0-1分布/两点分布)
4.2.2 二项分布
举例:
1次打靶成功概率为0.3,问100次打靶成功10次的概率是多少,即可以用这个公式计算。但这个计算太过复杂,这就有了泊松分布。
4.2.3 泊松分布(poisson distribution)
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。**泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。**如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。
4.3 期望与方差
4.3.1 期望与方差
期望:在概率论和统计学中,数学期望(mean)(或均值)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。(期望是加权平均,平均是在所有概率都相等的情况下等于期望)
方差:方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
4.3.2 常见分布的期望和方差
4.3.3 协方差
协方差用来衡量两个变量的相关性,而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
负数为负相关、正数为正相关、0为不相关
4.4 连续分布
4.4.1 均匀分布
概率密度:
单纯的讲概率密度没有实际的意义,它必须有确定的有界区间为前提。可以把概率密度看成是纵坐标,区间看成是横坐标,概率密度对区间的积分就是面积,而这个面积就是事件在这个区间发生的概率,所有面积的和为1。所以单独分析一个点的概率密度是没有任何意义的,它必须要有区间作为参考和对比。
概率密度函数(probability density function):.
4.4.2 高斯分布密度函数(Gaussian Distribution)
别名:高斯分布、误差分布、正态分布(记忆:高斯在研究误差的时候发明了正态分布)
普通正态分布与标准正态分布的关系:
截断采样(一种调参手段):在2σ或3σ范围内采样,其他的不要。
高斯分布的性质:
3σ原则:99.730020%的面积在平均值左右三个标准差3σ的范围内
密度函数关于平均值对称
平均值是它的众数(statistical mode)以及中位数(median)
标准正态分布:均值为0,方差为1的高斯分布
瘦高的方差小,矮胖的方差大
4.4.2.1 中心极限定理
在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。
结论:
(1)用样本来估计总体。任何一个样本的平均值将会约等于其所在总体的平均值。
(2)样本平均值呈正态分布。
4.4.2.2 多维高斯分布密度函数
x表示维度为 D的向量, μ 则是这些向量的平均值,Σ表示所有向量x 的协方差矩阵。
对于二维向量x而言,其协方差矩阵为:
4.4.3 指数分布密度函数
定义:指数分布是两件事情发生的平均间隔时间,时间是连续变量。
五、参数估计
5.1 参数估计
定义:从样本中来估计总体分布中未知参数的过程,y=P(x;w)
分类:
(1)点估计:
用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计的方法有矩估计、最大似然估计、最小二乘法等。
(2)区间估计:
通过从总体中抽取的样本,根据一定的正确可行度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
5.1.1 矩估计
一阶原点矩为期望;一阶中心矩可以近似理解为方差(方差前面应该是n-1)。
5.1.2 极大似然法
核心思想:概率的发生和未知参数有关,参数值不同时,概率也不同,如果一次实验中该事件发生了,这时候参数值应该是使概率发生最大的那个值。
六、学派
(1)频率派
P(x;w):w是数值,就认为它是频率派。比如神经网络,因为求出来的是值
(2)贝叶斯学派
P(x;w):w是分布,就认为它是贝叶斯学派。比如条件随机场、图模型、贝叶斯网络等。