统计学基础(一)
以下均为可汗学院统计学课程笔记
1. 极差和中程数
极差:这些数字分开的有多远,计算方法是用其中的最大的数减去最小的数
中程数:考虑集中趋势的有一种方式,计算方法是取最大数和最小数的平均值
2. 茎叶图
以下茎叶图展示了在一场比赛内,各个球员的得分情况。通过茎叶图,能一眼看出有多少球员是个位数得分,10+得分和20+得分,即能够看出分布情况
3. 箱线图
反映分布情况和中位数, 两个四分位数
如何画箱线图:先最大最小,再上下四分标出成箱,中位数标出后连线
4. 统计:集中趋势(描述一组数字,找出最能代表这一组数据的个别数字或者说,能体现集中趋势的数字)
统计学的分类:描述性统计学,推论统计学
举例:算数平均、中位数、众数
5. 统计:样本和总体
总体均值和样本均值的通用表示方法
6. 统计:总体方差
sigma的平方
7. 统计:样本方差
s的平方
里面下面的公式去估计总体方差,通常会低估总体方差
另外一个公式,被称为总体方差的无偏估计
8. 统计:标准差
样本的标准差也是按照n-1计算
9. 统计:诸方差公式
总体方差计算可以变换成这种形式,通常是计算方差的快速方法
还可以变换成这种形式,可以无需提前计算均值等
10. 统计:随机变量介绍
随机变量并不是传统意义上的变量,更像是从随机过程映射到数值的函数
随机变量,就是函数映射
分类:离散随机变量和连续随机变量(按变化情况有穷无穷)
概率分布函数:随机变量X等于某数值的概率,可以通过概率分布函数得到
11. 二项(概率)分布
举例:
- 一个硬币抛五次,正面的次数
- 投篮十次,投中的次数
12. 期望值E(X)
随机变量的期望值,其实就是总体的均值,有时也被称为总体均值
通过计算随机变量期望值的方式,可以得到总体均值
二项分布中,期望值 E(X) = np
随机变量X表示成功的次数
证明过程中,将k 和 n 替换,得到以下
13. 泊松过程
举例:想要确定某一个小时内100辆车或者5辆车通过的概率。先定义一个随机变量X,假设它表示一个小时内通过车辆数,然后求出X的概率分布
两个假设:街上此点任意时刻的情况没有差异;一段时间的车流量,不会影响下一段时间的车流量(独立性)
通过二项分布来推导出泊松分布
中间省略数学运算(极限)
14. 大数定律
样本量足够大的时候,样本均值接近期望值
或者说
样本均值将收敛于总体均值或随机变量期望值
15. 正态分布 (高斯分布)
密度函数:
z分数:离均值有多少个标准差,z分数可正可负,而且可以用在任意分布上,只要知道均值和标准差
经验法则:又称为68-95-99.7法则,落在1个标准差之间的概率是68,落在2个标准差之间的概率是95%,99.7同理