机器学习中的统计学基础知识
- 负偏斜分布
人类存活年龄分布
- 均匀分布
没有众数,天气预报
- 多峰分布
有多个众数,该例子为前半部分为女士鞋号,后半部分为男士鞋号
- 众数指的是x轴,y轴代表具体的频率
- 众数不受总体数据影响,而平均值又会因为总体影响过大导致被平均,所以就发明了中位数
- 中位数在处理偏斜分布时通常能很好的反映出趋势
对于上图的正偏斜分布来说,众数<中位数<均值
对于上图的正态分布来说,众数=中位数=均值
统计学家在做统计的时候,通常会砍掉已经排序好的前25%的值,和后25%的值
Q1是第一个四分位数,Q3是第三个四分位数,
IQR=Q3−Q1 得到的值域通常就是统计学家要用的部分数据-
统计学中计算是否为异常值的公式为
Outlier<Q1−1.5∗IQR∥Outlier<Q3+1.5∗IQR
- 箱线图
注意:上图中最下面的点表示异常值
- IQR也存在一定问题,对于不同的分布IQR可能相同,所以IQR不能考虑分布特性
- 方差和标准差的图像解释
- 贝塞尔校正
当做数据抽样的时候,抽出来的数据量由于小于总体数据量,所以他的方差和标准差总是小于总体数据量的方差和标准差,于是做了贝塞尔校正,将原来的标准差公式