概率论
我们需要描述一组数据时候,本质上需要描述每一个点。但是如果我们可以用分布去表示这些数据,就只需要均值或者方差分布参数,大大节省了存储空间。
离散型随机分布
伯努利分布:一次实验,结果只有两种结果。p(k)=pk(1−p)(1−k),k∈{0,1} ,期望:p,方差:p(1−p)
二项分布:n次伯努利实验正好得到k次成功的概率,单次成功的概率为p。当n=1的时候退化到伯努利分布。当p=0.5的时候,整体上和正态分布图形类似。p(k)=Cnkpk(1−p)n−k,期望:np,方差:np(1−p)
几何分布:进行n次伯努利实验,在获取成功前需要进行多少次实验。分布图形是越往前概率越大,p(k)=(1−p)k−1p, 期望p1, 方差是pk(1−p)
泊松分布:单位时间内独立事件发生次数的概率分布,它是二项分布n很大而p很小时的极限。泊松分布可以把单位时间切成n次,每次成功的概率为p,那么单位时间内出现k次的概率就是二项分布,所以泊松分布是二项分布的一种极限形式。它的分布图形也和二项分布类似,特别是n很大而p很小时。p(k)=k!e−λλk, 期望和方差都是λ,其中k是发生的次数,λ是发生的平均次数,当λ>=20时,泊松分布趋向于正态分布。
指数分布:对应于泊松分布,指数分布是指两次独立事件发生的时间间隔的概率分布。
p(k)=λe−λk,其中λ是指单位时间内独立事件发生的次数。期望=λ1,方差=λ21
负二项分布:在一连串伯努利实验中,恰好在第r+k次实验出现第r次成功的概率。换句话说,是指出现第r次成功时所需要的总实验次数的概率分布。
p(k,r,p)=Cr+k−1r−1pr(1−p)k,期望E(k)=pk(1−p), 方差D(k)=p2k(1−p)
多项分布:二项分布的扩展。
连续型随机分布
均匀分布:p(x)=b−a1,期望2b−a, 方差12(b−a)2
正态分布:p(x)=N(μ,σ)=2πσ1e−2σ2(x−μ)2,期望μ,方差σ。
指数分布:可以扩展到连续随机变量,仍然代表两次独立事件发生的事件间隔(实数)。公式和上面一致。
最大熵
那么以上的概率分布是如何来的呢?最大熵理论提供了一种解释的方法,概率分布是满足一定约束条件下的最大熵概率分布。对于一个随机变量来说,如果没有任何约束,我们大概率倾向于该随机变量符合均匀分布。对应到现实中,如果没有任何前提条件,我们认为事件发生的概率是相同的。比如骰子,我们会默认每一面的概率是1/6。最大熵概率分布满足一下条件:
mathmaxpH(p)=−∫yp(y)logp(y)dy,st.∫yp(y)=1,p(y)>=0,∫yp(y)∗fi(y)dy=ai
其中ai是预先定好的约束条件,比如均值、方差。 使用拉格朗日乘子得到:
mathL(p,μ,λ)=∫yp(y)logp(y)dy−μ0p(y)+μ1(∫yp(y)−1)+i∑λi(∫yp(y)∗fi(y)dy−ai)
其中μ,λ都为正数,解为:
mathp∗=minpmaxμ,λL=maxμ,λminpL
假设y值固定在某个确定的值,对p求偏导:
math∂p∂L=logp+ln21−μ0+μ1+i∑λifi(y)=0
等式两边乘以ln2,对logp进行换底:
mathlnp+1−μ0+μ1+i∑λifi(y)=0
得到解p*:
mathp∗(y)=e−1+μ0−μ1−∑iλifi(y)=c∗e−∑iλifi(y)
伯努利分布推导
约束条件:
mathf(y)=y→∫yp(y)∗y=μ,y∈{0,1}
其中μ代表事件成功的概率,也是伯努利分布的期望值,得到c∗e−λ=μ
同时:p(0)+p(1)=1→c+ce−λ=1
由以上两式得到:c=1−μ,λ=−ln1−μμ
综合以上:p(y)=(1−μ)∗(1−μμ)y=(1−μ)1−yμy, 我们就得到了伯努利分布的公式,伯努利分布是在约束期望值下的最大熵概率分布。
正态分布推导
约束条件:均值和方差
其他分布的约束条件

其他概念
概率分布函数,条件概率,联合概率, 独立分布,条件独立,熵, 交
叉熵、条件熵、KL散度