统计学基本知识#datawhale 任务一,二
按照网易云课堂可汗学院统计学进度,从第1课~34课
描述性统计
数据展示
- 条形图
- 线型图
- 饼图
- 箱线图
- 茎叶图
各种作用就不一一阐述了,比较基础。
数据数字特征
- 表示数据集中趋势:反映了一组数据向某一中心值靠拢的程度。
参考值:均值,分位数(中位数),众数 - 表示数据离散程度:反映一组数据的差异大小。
参考值: 方差,标准差,极差(全距),分位距 - 数据分布的测定:反映一组数据分布的形状
参考值:峰度,偏度
统计学基本知识
- 总体和样本
总体是统计学解决任何一个问题都有待认识客观事物的全体,称作统计总体。总体单位是组成总体的各个个体。样本则是为了认识总体而从总体中选取的实际观测的个体和。 - 二项分布
设在n重贝努利试验中,事件只有两种结果,且P(A)= b,二项分布记为X~B(n,b)
数字特征:数学期望E(x)= nb ,方差Var(x)= nb(1-b) - 泊松分布
通过二项分布推导所得,适用于描述单位时间内随机事件的平均发生次数
推导过程:
(图片如有侵权请联系我删除) - 大数定律
随着样本数的增加,样本均值会收敛于总体均值,或叫随机变量的期望值。
大数定律并不在意样本的数量(因为样本数量趋近于无穷),所以并不是说前面样本的均值高于期望值,后面样本的均值就低于期望值以来补偿。(这是“赌徒谬论”) - 正态分布
如果要算正态分布的概率密度函数的面积,则需用到累积分布函数去求积分,这里不作演示。
这里 称作标准z分数,表示该值距离均值几个标准差。
基于正态分布的三大分布分布,t分布和F分布会在之后涉及。
6. 标准正态分布
当 则为标准正态分布。任何正态分布都能通过标准化转换成标准正态分布。
7. 经验法则(3法则)
对于正态分布 取值的概率,在区间, , 内取值的概率分别为68.3%,95.4%,99.7%。