1.Balls & Bins
- 定义:将m个balls 装入n 个不同的bins
- 球条件独立:m个球之间相互独立进入n个bins 互不影响,第i个球进入第j个盒子的概率为pij=1/n;
- 盒子条件不独立但同分布:用Z={Z1,Z2,…,Zn}表示每个盒子中装有的球数,当一个盒子装得多了,另外一个就少了,自然不独立的但同分布。
2.应用-生日迅论



将球盒模型应用到Birthday Paradox 这一问题上时,n个盒子代表N=365天,而班级的每个成员(m个球)对应的生日可以看作是球,由上图黄色标明,当成员大于盒子的根号N量级时,会以高概率出现双生缘
还有类似的应用:loading balancing 问题,球是多个任务,盒子是多个服务器,我们可以关注负载最大的服务器上的负载的量级
3几个重要结论
-
当m<n ,所有球分得很开,多数盒子为空
-
当m>θ(n),以高概率出现2个球在一个盒子中,即生日悖 论
形式化表示为:
当m∼θ(n),∃Zi≥2∃Y=1≤i≤nmaxZi,Y≥2且Pr(Y≥2)≥1−ϵ
-
当m=n时,关注球数最多的盒子(负载最大的服务器上的负载数量)中球数以高概率服从ln n的数量级,形式化为:
当m=n,令Y=1≤i≤nmaxZi,Y∼θ(lnlnnlnn)withhighprobability
-
当m=nlnn可以说是满足大数定理,即每个盒子中的数量以高概率 为m/n=lnn,
这点证明参考Coupon Collector’s Problem高级算法设计
证明 当m=n时,关注球数最多的盒子(负载最大的服务器上的负载数量)中球数以高概率服从ln n的数量级,形式化为:
当m=n,令Y=1≤i≤nmaxZi,Y∼θ(lnlnnlnn)withhighprobability
即证Pr(Y=clnlnnlnn)=1−O(1)
不妨使c=41
即证Pr(maxZi≤4lnlnnlnn)=1−O(1)(1)与Pr(maxZi≥41lnlnnlnn)=1−O(1)(2)
3.1
证(1)等价于证(令t=lnlnnlnn)
1−Pr(maxZi≤4t)=O(1)
等价于证
Pr(maxZi>4t)=O(1)那么需要求它的上界
等价于证 Pr(maxZi>4t)=Pr(Z1>4t⋃Z2>4t⋃⋯⋃Zn>4t)≤i=1∑nPr(Zi>4t)不妨设第一个盒子球数最多maxZi=Z1≤nPr(Z1>4t)=O(1)
3.1.1 先证Pr(Z1>4t)=O(1)即求其上界
物理意义为至少有4t+1个球落入第一个盒子,设球的序号为:(j1,j2,j3…,j4t+1)∈m=n
Pr(Z1>4t)=j1…j4t+1∈n⋃Pr(j1,j2...…j4t+1inbin1)≤j1…j4t+1∈n∑Pr(j1,j2...…j4t+1inbin1)=Cn4t+1(n1)4t+1其它的n−4t−1个球进入哪一个盒子并不关心
利用公式(mn)m≤Cnm=m(m−1)(m−2)…(1)n(n−1)(n−2)…(n−m+1)≤(mne)m(∗)
3.1.1有
Pr(Z1>4t)=Cn4t+1(n1)4t+1≤(n1)4t+1(4t+1ne)4t+1=(4t+1e)4t+1≈t14t+1代入t=lnlnnlnn=(lnnlnlnn)4t+1≈(lnnlnn)4t+1=(lnn)−2t=e−2tlnlnn=e−2lnlnnlnnlnlnn=e−2lnn=n21
于是有
等价于证 Pr(maxZi>4t)≤nPr(Z1>4t)=nn21=n1=O(1)
得证
3.2 证(2)
我们要 换一种思路(令t=lnlnnlnn)
Pr(maxZi≥41lnlnnlnn)=1−O(1)(2)
我们不写成如下的形式来证明,因为下式是在求上界,实际中我们应该求下界才是
Pr(maxZi>41t)=Pr(Z1>41t⋃Z2>41t⋃⋯⋃Zn>41t)≤i=1∑nPr(Zi>41t)不妨设第一个盒子球数最多maxZi=Z1≤nPr(Z1>41t)
3.2.1 求Pr(Z1>41t)的下界
Pr(Z1>41t)=k=41∑nPr(Z1=k)≥Pr(Z1=41t+1)=Cn41t+1(n1)41t+1(1−n1)n−41t−1利用(1−n1)n∼e−1和公式∗≥Cn41t+1(n1)41t+1e−1≥(41t+1n)41t+1(n1)41t+1e−1=(41t+11)41t+1e−1≥(lnn+4lnlnn4lnlnn)41t+1e−1当n>e2时,有4lnlnn>2≥(lnn+4lnlnn2)41t+1e−1再利用4lnlnn>2≥(lnn1)41t+1e−1=(lnn)−41(lnlnnlnn)−1e−1=e(−41(lnlnnlnn)−1)lnlnne−1=e(−41(lnn)−lnlnn)e−1=n−41lnn1e−1=n411lnn1e−1有n41≪n31≥n311
3.2.2 求Pr(Y≥41t)的下界
即证 Pr(maxZi≥41lnlnnlnn)=1−O(1)(2)
定义变量{X1,X2,…,Xn}
Xi=⎩⎨⎧10 ifZi>41t others
令pi=Pr(Xi=1)=Pr(Zi>41t)E(Xi)=piVar(Xi)=pi(1−pi)≤1/4X=X1+X2+⋯+XnE(X)=E(X1+X2+⋯+Xn)=nE(Xi)=nPr(Zi>41t)≥n32Var(X)=Var(X1+X2+⋯+Xn)≤nVar(Xi)=41n)
证方差时用到的公式是Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)当X,Y负相关时,Var(X+Y)≤Var(X)+Var(Y),上面Xi间满足负相关,当Z_i 大时,其它盒子装的球就会少。
证下式 Pr(maxZi>41t)=Pr(Z1>41t⋃Z2>41t⋃⋯⋃Zn>41t)=Pr(X1=1⋃X2=1⋃⋯⋃Xn=1)=1−Pr(X1=0⋂X2=0⋂⋯⋂Xn=0)=1−Pr(i=1∑nXi)=1−Pr(X=0)=1−O(1)
等价于证 Pr(X=0)=O(1),即证其上界为小O(1)
X=X1+X2+⋯+Xn
Pr(X=0)=Pr(X−E(X)=−E(X))≤Pr(∣X−E(X)∣=∣E(X)∣)利用切比雪夫不等式≤E2(X)Var(X)(3)
因此有
Pr(X=0)≤E2(X)Var(X)=n34n/4=41n311∼O(1)
得证