统计学基础(一)

以下均为可汗学院统计学课程笔记

1. 极差和中程数

极差:这些数字分开的有多远,计算方法是用其中的最大的数减去最小的数

中程数:考虑集中趋势的有一种方式,计算方法是取最大数和最小数的平均值

2. 茎叶图 

以下茎叶图展示了在一场比赛内,各个球员的得分情况。通过茎叶图,能一眼看出有多少球员是个位数得分,10+得分和20+得分,即能够看出分布情况

统计学基础(一)

3. 箱线图

反映分布情况和中位数, 两个四分位数

如何画箱线图:先最大最小,再上下四分标出成箱,中位数标出后连线

4. 统计:集中趋势(描述一组数字,找出最能代表这一组数据的个别数字或者说,能体现集中趋势的数字)

统计学的分类:描述性统计学,推论统计学

举例:算数平均、中位数、众数

5. 统计:样本和总体

总体均值和样本均值的通用表示方法

 统计学基础(一)

6. 统计:总体方差

sigma的平方

统计学基础(一)

7. 统计:样本方差

s的平方

里面下面的公式去估计总体方差,通常会低估总体方差

统计学基础(一)

另外一个公式,被称为总体方差的无偏估计

统计学基础(一)

统计学基础(一)

8. 统计:标准差

样本的标准差也是按照n-1计算

统计学基础(一)

9. 统计:诸方差公式

总体方差计算可以变换成这种形式,通常是计算方差的快速方法

统计学基础(一)

还可以变换成这种形式,可以无需提前计算均值等

统计学基础(一)

10. 统计:随机变量介绍

随机变量并不是传统意义上的变量,更像是从随机过程映射到数值的函数

随机变量,就是函数映射

分类:离散随机变量和连续随机变量(按变化情况有穷无穷)

概率分布函数:随机变量X等于某数值的概率,可以通过概率分布函数得到

11. 二项(概率)分布

举例:

  • 一个硬币抛五次,正面的次数
  • 投篮十次,投中的次数

12. 期望值E(X)

随机变量的期望值,其实就是总体的均值,有时也被称为总体均值

通过计算随机变量期望值的方式,可以得到总体均值

二项分布中,期望值 E(X) = np

随机变量X表示成功的次数

统计学基础(一)

证明过程中,将k 和 n 替换,得到以下

统计学基础(一)

 

13. 泊松过程

举例:想要确定某一个小时内100辆车或者5辆车通过的概率。先定义一个随机变量X,假设它表示一个小时内通过车辆数,然后求出X的概率分布

两个假设:街上此点任意时刻的情况没有差异;一段时间的车流量,不会影响下一段时间的车流量(独立性)

通过二项分布来推导出泊松分布

统计学基础(一)

中间省略数学运算(极限)

统计学基础(一)

 

14. 大数定律

样本量足够大的时候,样本均值接近期望值

或者说

样本均值将收敛于总体均值或随机变量期望值

 统计学基础(一)

 

15. 正态分布 (高斯分布)

密度函数:统计学基础(一)

z分数:离均值有多少个标准差,z分数可正可负,而且可以用在任意分布上,只要知道均值和标准差

经验法则:又称为68-95-99.7法则,落在1个标准差之间的概率是68,落在2个标准差之间的概率是95%,99.7同理

统计学基础(一)