干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

最近在撰写笔记 【Sklearn源码学习笔记】(含官网样例解读)无监督学习之高斯混合模型 的过程中,官方Sklearn源码中BayesianGaussianMixture()方法涉及到狄利克雷分布相关知识。

关于我的更多学习笔记,欢迎您关注“武汉AI算法研习”公众号,本文作者微信comrliuyu

本文分三个部分“【二项分布】”、“【多项分布】”、“【Beta分布】”、“【狄利克雷分布】”来进行展开,总共阅读时间大约8分钟。

【二项分布】

二项分布定义为在n次独立实验中,每次实验只有两种可能的结果,两种可能结果发生之间相互独立,其中每次实验中每种结果发生的概率保持不变,这一系列实验也称为n重伯努利试验。例如在n重伯努利实验中,假若每次试验成功率为P(0<P<1),则在n此独立重复试验中成功总次数X服从二项分布:

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

【多项分布】

多项分布式二项分布的推广,在做n此伯努利实验中,每次试验结果有K种每种结果发生的概率Pi是一定的。比如扔骰子每次有六种结果,每种结果发生的可能性一定,足球比赛,每次比赛结果有胜、平和负三种结果。

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

【Beta分布】

Beta分布描述的是概率的概率分布,它可以给出了所有概率出现的可能性大小,如下图x轴就表示各个概率值的取值,x对应的y值就是发生这个概率值所对应的概率

 

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

Beta分布概率密度函数如下,其中B为Beta函数,式中参数ab的不同取值分布概率密度函数形态各异,ab称为形状参数,a与成功事件次数有关,b与失败事件数有关,形态变化见下图。

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

【狄利克雷分布】

狄利克雷分布是Beta分布的多元推广,Beta分布是二项式分布的共轭分布,狄利克雷分布则是多项式分布的共轭分布,共轭是贝叶斯方法中很常见的一个词,结合贝叶斯定理,我们可以将“共轭”理解为后验和先验是同一种分布。狄利克雷分布的概率密度函数如下:

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

其中有约束:

干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布