篮子平均频繁出现的概率是多少?

问题描述:

我正在阅读频繁模式挖掘算法,并提出以下问题。让一家公司拥有10,000种不同的产品,并有1,000,000,000个交易,每个交易包含10种不同的产品。如果对于每个篮子一个产品是统一选择的,那么在1,000,000,000个交易中选择一个规模为10的固定篮子1000次的概率是多少?篮子平均频繁出现的概率是多少?

这是自我学习,问题是在幻灯片9 here

说我不是在概率论方面的专家,但我认为,机会几乎是0。要知道为什么,想象你有一个盒子与所有可能的篮子。令B为框的基数,因此从框中抽取一个特定篮子的概率为p = 1/B,大约为p = 10^(-40)。想象一下你从这个盒子里取出N次更换。那么你会期望这个特定的篮子将被绘制m = N/B times。这是实验的预期频率

此采样过程的标准偏差(N以成功概率p提取)为σ = sqrt(N*p*(1-p))。如果你用N = 10^9p = 10^(-40)做数学,你会发现σ = sqrt(10^(-31))

现在假设实验的观察频率f = 10^3。由于预期频率是m = N/B = 10^9/10^40 = 10^(-31),它遵循该实验的z-score

z = (f-m)/σ = sqrt(10)*10^17 

观察特定篮的至少f实例的机会是通过正态近似作为区域标准正态曲线下之间给出z和无限。这个区域几乎为零。