《人人都会数据分析》笔记:二项分布及其实际应用场景
解读“二项”
(1)某次事件(试验)最终结果只有两个。
例子:工厂产品质量评估只有合格、不合格两个结果。
(2)某次事件(试验)最终结果多于两个,但只关心其中一个,也可以视为两个结果。
例子:国乒乓球队可能获得金牌、银牌或铜牌,但鉴于我国乒乓球的世界地位,我们
通常只关心结果:是金牌和不是金牌。
(3)实际运用中,一般用“成功”表示我们感兴趣的结果发生,“失败”表示我们不感兴趣的
结果发生。这就是二项分布试验,其概率分布称为二项分布。
公式
某个试验成功的概率用p表示,失败的概率用q表示(q=1-p)。进行n次同样的试验,成功了
x次,失败次数为n-x。
上面的公式称为概率质量函数;概率由实验次数n和成功概率p决定。二项分布的概率质量函数
可以简写成 X~B(n,p)。
性质
(1)均值:np 方差:npq
通过单次试验推导:
(2)图形变化规律
成功概率p越接近0.5,失败概率q也越接近0.5,二项分布将越对称。
保持试验次数n次不变,p越接近0.5,近似于均值为np、方差为npq的正态分布。
当np>5且nq>5时,二项分布就可以近似等于均值为np,方差为npq的正态分布。