数据分析之统计基础(一)——数理统计基础

抽样估计(1)

  1. 随机现象
  2. 样本空间
    样本空间是随机现象的一切可能结果组成的集合,记为Ω={ω},其中,ω为基本结果,成为样本点。
  3. 随机事件的概率
    随机事件是样本空间的一个子集。概率是随机事件出现可能性的度量。
    在数据分析中,需要掌握的最重要的两个概念,一个是条件概率,一个是随机事件的独立性
    条件概率
    已知样本空间Ω下,事件A发生的概率为P(A),事件B发生的概率是P(B),事件A和事件B同时发生的概率是P(AB)。
    P(A|B)表示事件A在事件B已经发生的条件下的条件概率,记为:
    P(A|B)=P(AB)/P(B)
    相互独立事件
    如果事件A和事件B满足P(A)=P(A|B),P(A)P(B)=P(AB),则称事件A关于事件B是独立的。
  4. 随机变量及其概率分布
    随机变量:用来表示随机现象结果的变量。
    离散型随机变量:一个随机变量仅区数轴上有限个点和可列个点。
    连续性随机变量:随机变量所有取值充满数轴上的一个区间(a,b)
    随机变量的概率分布:随机变量取值的统计规律。
    离散随机变量的分布可以用分布列来表示;
    连续随机变量的分布用概率密度函数表示。
    数据分析之统计基础(一)——数理统计基础
    随机事件的概率,即连续随机变量去某个区间的概率,就转化为求某个区间关于概率密度函数积分。
    则:
    F(X)=(,x)f(x)dx
    若随机变量X表示某地区成年男性的身高,F(2)=0.95表达的含义是,某地区成年男性身高在2米以下的概率是95%。

(未完待续……)