数据分析之统计基础(一)——数理统计基础
抽样估计(1)
- 随机现象
- 样本空间
样本空间是随机现象的一切可能结果组成的集合,记为,其中,为基本结果,成为样本点。 - 随机事件的概率
随机事件是样本空间的一个子集。概率是随机事件出现可能性的度量。
在数据分析中,需要掌握的最重要的两个概念,一个是条件概率,一个是随机事件的独立性
条件概率
已知样本空间下,事件A发生的概率为P(A),事件B发生的概率是P(B),事件A和事件B同时发生的概率是P(AB)。
P(A|B)表示事件A在事件B已经发生的条件下的条件概率,记为:
相互独立事件
如果事件A和事件B满足,则称事件A关于事件B是独立的。 - 随机变量及其概率分布
随机变量:用来表示随机现象结果的变量。
离散型随机变量:一个随机变量仅区数轴上有限个点和可列个点。
连续性随机变量:随机变量所有取值充满数轴上的一个区间。
随机变量的概率分布:随机变量取值的统计规律。
离散随机变量的分布可以用分布列来表示;
连续随机变量的分布用概率密度函数表示。
随机事件的概率,即连续随机变量去某个区间的概率,就转化为求某个区间关于概率密度函数积分。
则:
若随机变量表示某地区成年男性的身高,表达的含义是,某地区成年男性身高在2米以下的概率是95%。
(未完待续……)