机器学习之算法基础

统计学

统计学可以分为:描述统计学推断统计学

描述统计学(descriptive statistics):使用特定的数字或图表来体现数据的集中程度和离散程度,例如:某个班某次数学考试的平均分、最高分、各个分数段的人数分布,等等。

推断统计学(inferential statistic):以概率论为基础,根据样本数据来推断总体的数量特征。例如:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。

集中趋势

在统计学中,集中趋势(central tendency)或*趋势,在统计学中是指一组数据向某一中心值聚拢的程度,它反映了一组数据中心点的位置所在。 最常见的几种集中趋势包括算数平均数、中位数及众数。

算数平均数

算术平均数( arithmetic mean):又称均值,它是集中趋势测定中最重要的一种平均数,可以分为简单算术平均数和加权算术平均数。

简单算术平均数

主要用于未分组的原始数据,例如,一组数据Xi(i=1,2,......,N),其简单算术平均数的计算公式为:

机器学习之算法基础

例如,某次数学考试中,5位考生的成绩分别如下:

70,85,62,98,92

则,5位考生成绩的简单算术平均数为: (70+85+62+98+92)/5 = 81.4

加权算术平均数

主要用于处理经分组整理的数据,例如,将原始数据分成k组,各组中的值为X1,X2,...,Xk,各组的频数分别为f1,f2,...,fk,加权算术平均数的计算公式为:

机器学习之算法基础

例如,以下是小明一学期的数学考试成绩:

平时测验

期中考试

期末考试

80

90

95

学校规定的学科综合成绩的计算方式是:

平时测验占比

期中考试占比

期末考试占比

20%

30%

50%

那么,小明一学期的数学综合成绩(加权算术平均数)为:

(80*20%+90*30%+95*50%)/(20%+30%+50%)= 90.5

中位数

中位数(Median): 又称中值,将数据按大小顺序进行排列,居于数列中间位置的那个数据就是中位数。如果数据有偶数个,通常取最中间的两个数的平均数作为中位数。

例如:58,32,46,92,73,88,23,63 。

1. 先排序:23,32,46,58,63,73,88,92

2. 找出处于中间位置的数:58,63

3. 中位数为:(58+63)/2 = 60.5

众数

众数:一组数据中出现次数最多的数值叫作众数,有时众数在一组数中有好几个,常用大写字母 M 来表示。

例如:1,2,2,3,3 中的众数是 2 和 31,2,3,4,5 中没有众数。

使用均值、中位数和众数来描述集中趋势的优缺点对比如下:

 

优点

缺点

均值

充分利用所有数据,使用性强

容易受到极端值干扰

中位数

不受极端值干扰

缺乏敏感性

众数

当数据具有明显的集中趋势时,代表性好;不受极端值干扰

缺乏唯一性,可能有一个或多个,也可能一个都没有

离散趋势

离散趋势:在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况。

一组观测数据的频数分布有集中趋势和离散趋势两个主要特征。仅仅用集中趋势来描述数据的分布特征是不够的,只有把两者结合起来,才能全面地认识事物。我们经常会碰到平均数相同的两组数据其离散程度可以是不同的。一组数据的分布可能比较集中,差异较小,则平均数的代表性较好。另一组数据可能比较分散,差异较大,则平均数的代表性就较差。描述数据离散趋势的常用指标有极差、四分位数间距、方差、标准差、标准误差和变异系数等,其中方差和标准差最常用。

极差

极差:又称范围误差或全距(Range),以R表示,用来简单地描述观测数据的范围大小,其计算公式为:

机器学习之算法基础

其中,Xmax 为观测数据中的最大值,Xmin为观测数据中的最小值。

例如 :12,12,13,14,16,21 的极差为 21 - 12 = 9 。

方差

方差:在统计描述中,方差用来计算每一个变量(观测值)与总体平均数之间的差异,其值越大就表示数据越分散,总体方差计算公式为:

机器学习之算法基础

其中,Xi 表示数据集中第 i 个数据的值,μ 表示数据集的总体均值。

或者简化为:

机器学习之算法基础

例如:1,2,5,8,9 。

1. 先计算均值为:(1+2+5+8+9) / 5 = 5

2. 再计算方差为:[(1-5)^ 2 +(2-5)^ 2+(5-5)^ 2+(8-5)^ 2+(9-5)^ 2] / 5 = 10

标准差

标准差:中文环境中又常称均方差,用 σ 表示。标准差是方差的算术平方根,能反映一个数据集的离散程度,平均数相同的两组数据,标准差未必相同 。其计算公式为:

机器学习之算法基础

直方图

直方图:又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。

例如:以下是某次数学考试,各个分数段的学生人数分布情况(频数分布表)。

分数段

人数

0至59

5

60至69

51

70至79

20

80至89

6

90至100

1

根据频数分布表,画出频数直方图如下:

机器学习之算法基础

贝叶斯公式

贝叶斯公式:也称为贝叶斯法则、贝叶斯定理或贝叶斯规则,是概率统计中应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。

通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。

机器学习之算法基础

P(A_{i}|B)=\frac{P(B|A_{i})\cdot P(A_{i})}{\sum _{j=1}^{n}P(B|A_{j})\cdot P(A_{j})'}

其中P(Ai|B)是在随机事件B发生的情况下随机事件Ai发生的概率。A1,A2,...,An 为完备事件组,即

 

\cup _{i=1}^{n}A_{i}=\Omega ,A_{i}A_{j}=\phi ,P(A_{i})>0

在贝叶斯法则中,每个名词都有约定俗成的名称:

P(A)是事件A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何事件B方面的因素。

P(A|B)是已知事件B发生后事件A的条件概率,也由于得自事件B的取值而被称作事件A的后验概率。

P(B|A)是已知事件A发生后事件B的条件概率,也由于得自事件A的取值而被称作事件B的后验概率。

P(B)是事件B的先验概率或边缘概率,也作标准化常量(normalized constant)。

对于变量有二个以上的情况,贝式定理亦成立。例如:

P(A|B,C)=P(B|A)*P(A)*P(C|A,B)/(P(B)*P(C|B))

这个式子可以由套用多次二个变量的贝氏定理及条件机率的定义导出。

例如:一棵树生病了,树的主人要外出,便委托邻居帮忙浇水,假设已知如果不浇水,树死去的概率为0.8,若浇水则树死去的概率为0.15,邻居会记得浇水的概率为0.9。

(1)求主人回来时树还活着的概率。

解: 记事件 A = {树活着},事件B1 = {邻居记得浇水},B2 = {邻居不记得浇水}

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)=0.85*0.9+0.2*0.1=0.785

(2)若主人回来时树已经死了,求邻居忘记浇水的概率。

解: 记事件 A = {树死了},事件B1 = {邻居记得浇水},B2 = {邻居忘记浇水}

 

 

 

 

P(B_{2}|A)=\frac{P(AB_{2})}{P(A)}=\frac{P(A|B_{2})P(B_{2})}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})}

=\frac{0.8*(1-0.9)}{0.15*0.9+0.8*(1-0.9)}=\frac{0.08}{0.215}=0.372