统计学基本知识#datawhale 任务一,二

按照网易云课堂可汗学院统计学进度,从第1课~34课

描述性统计

数据展示

  1. 条形图
  2. 线型图
  3. 饼图
  4. 箱线图
  5. 茎叶图
    各种作用就不一一阐述了,比较基础。

数据数字特征

  1. 表示数据集中趋势:反映了一组数据向某一中心值靠拢的程度。
    参考值:均值,分位数(中位数),众数
  2. 表示数据离散程度:反映一组数据的差异大小。
    参考值: 方差,标准差,极差(全距),分位距
  3. 数据分布的测定:反映一组数据分布的形状
    参考值:峰度,偏度

统计学基本知识

  1. 总体和样本
    总体是统计学解决任何一个问题都有待认识客观事物的全体,称作统计总体。总体单位是组成总体的各个个体。样本则是为了认识总体而从总体中选取的实际观测的个体和。
  2. 二项分布
    设在n重贝努利试验中,事件只有两种结果,且P(A)= b,二项分布记为X~B(n,b)
    数字特征:数学期望E(x)= nb ,方差Var(x)= nb(1-b)
  3. 泊松分布
    通过二项分布推导所得,适用于描述单位时间内随机事件的平均发生次数
    推导过程:
    统计学基本知识#datawhale 任务一,二
    (图片如有侵权请联系我删除)
  4. 大数定律
    随着样本数的增加,样本均值会收敛于总体均值,或叫随机变量的期望值。
    大数定律并不在意样本的数量(因为样本数量趋近于无穷),所以并不是说前面样本的均值高于期望值,后面样本的均值就低于期望值以来补偿。(这是“赌徒谬论”)
  5. 正态分布

f(x)=12πσe(xμ)22σ2f(x)=\frac{1}{\sqrt{2π}\sigma}*e^{\frac{-(x-\mu)^2}{2\sigma^2}}
如果要算正态分布的概率密度函数的面积,则需用到累积分布函数去求积分,这里不作演示。
这里 xμσ\frac{x-\mu}{\sigma} 称作标准z分数,表示该值距离均值几个标准差。
基于正态分布的三大分布x2x^2分布,t分布和F分布会在之后涉及。
6. 标准正态分布
μ=0,σ2=1\mu = 0,\sigma^2 = 1 则为标准正态分布。任何正态分布都能通过标准化转换成标准正态分布。
7. 经验法则(3σ\sigma法则)
对于正态分布 XN(μ,σ2)X - N(\mu,\sigma^2) 取值的概率,在区间(μσ,μ+σ)(\mu - \sigma,\mu + \sigma), (μ2σ,μ+2σ)(\mu - 2\sigma,\mu + 2\sigma), (μ3σ,μ+3σ)(\mu - 3\sigma,\mu + 3\sigma) 内取值的概率分别为68.3%,95.4%,99.7%。