篮子平均频繁出现的概率是多少?
问题描述:
我正在阅读频繁模式挖掘算法,并提出以下问题。让一家公司拥有10,000种不同的产品,并有1,000,000,000个交易,每个交易包含10种不同的产品。如果对于每个篮子一个产品是统一选择的,那么在1,000,000,000个交易中选择一个规模为10的固定篮子1000次的概率是多少?篮子平均频繁出现的概率是多少?
这是自我学习,问题是在幻灯片9 here
答
说我不是在概率论方面的专家,但我认为,机会几乎是0。要知道为什么,想象你有一个盒子与所有可能的篮子。令B
为框的基数,因此从框中抽取一个特定篮子的概率为p = 1/B
,大约为p = 10^(-40)
。想象一下你从这个盒子里取出N
次更换。那么你会期望这个特定的篮子将被绘制m = N/B times
。这是实验的预期频率。
此采样过程的标准偏差(N
以成功概率p
提取)为σ = sqrt(N*p*(1-p))
。如果你用N = 10^9
,p = 10^(-40)
做数学,你会发现σ = sqrt(10^(-31))
。
现在假设实验的观察频率是f = 10^3
。由于预期频率是m = N/B = 10^9/10^40 = 10^(-31)
,它遵循该实验的z-score
是
z = (f-m)/σ = sqrt(10)*10^17
观察特定篮的至少f
实例的机会是通过正态近似作为区域标准正态曲线下之间给出z
和无限。这个区域几乎为零。