数学-机器学习-基础-概率-高斯分布

二 数学基础-概率-高斯分布

2.1 思维导图简述

数学-机器学习-基础-概率-高斯分布

数学基础-高斯分布思维导图

2.2 内容

2.2.1 高斯分布的最大似然估计

A 已知

数据条件:xix_{i}p1p*1维的列向量,代表一组数据。XX是N*p维矩阵,表示N组数据。

数学-机器学习-基础-概率-高斯分布
高斯分布:
一维高斯分布(以一维高斯分布为例)

数学-机器学习-基础-概率-高斯分布

多维高斯分布

数学-机器学习-基础-概率-高斯分布

B 求最大似然估计MLE

数学-机器学习-基础-概率-高斯分布

C 解

数学-机器学习-基础-概率-高斯分布
数学-机器学习-基础-概率-高斯分布

D 收获

最大似然估计MLE: maximum likelihood estimation,由高斯提出,R.A Fisher发扬光大。

MLE就是求使概率P(X|θ)取得最大值的θ是多少:

数学-机器学习-基础-概率-高斯分布

P(X|θ)是什么,P(X|θ)是指在θ发生时,X发生的概率

不同的参数θ发生,会使得P(X|θ)的值不一样,当已知某个参数θ就使这个样本出现的概率最大,我们当然不会去选其他参数,所以干脆就选这个θ啦

2.2.2 高斯分布的最大似然估计无偏和有偏性

背景

数学-机器学习-基础-概率-高斯分布

高斯分布最大似然估计中,均值估计是无偏的,方差估计是有偏的。

A 已知:

数学-机器学习-基础-概率-高斯分布

B 求

最大似然估计的均值:μMLE\mu _{MLE}

最大似然估计的方差:σMLE2\sigma _{MLE}^2

C 解

数学-机器学习-基础-概率-高斯分布

D 收获

高斯分布最大似然估计中,均值估计是无偏的,方差估计是有偏的。

2.2.3 从概率密度角度观察高斯分布

背景

结论

从不一样的概率角度观察和分析高斯分布。发现

二维高斯分布可以用平面上的不同的椭圆曲线来表达。

数学-机器学习-基础-概率-高斯分布

基础

PDF:probability denstiy function 概率密度函数

马氏距离:

数学-机器学习-基础-概率-高斯分布

欧式距离:马氏距离Σ=1就是欧式距离

数学-机器学习-基础-概率-高斯分布

A 已知

多维高斯分布的PDF为:

数学-机器学习-基础-概率-高斯分布

其中,xRp,r.vx \in {R^p}{\rm{,r}}{\rm{.v}}

数学-机器学习-基础-概率-高斯分布

B 求

多维高斯分布的PDF中,只有x是自变量,μΣ\mu和\Sigma均是参数。

数学-机器学习-基础-概率-高斯分布

根据多维高斯分布PDF,求出多维高斯分布的数学表现形式。

C 解

数学-机器学习-基础-概率-高斯分布

2.2.4 高斯分布的局限性

A 局限性

  1. 方差阵Σ是一个p*p维的对称矩阵,太难求了,计算量太大

Σ的参数个数是(p*p-p)/2+p = (p*p+p)/2 = O(p^2)

通过将Σ设置为对角矩阵可以缓解计算量

  1. 只能处理,假设整个模型是高斯分布,但仅用一个高斯分布无法表达模型

GMM中提出混合模型

B 完整过程

数学-机器学习-基础-概率-高斯分布
数学-机器学习-基础-概率-高斯分布

2.2.5 求高斯分布的边缘概率以及条件概率

数学-机器学习-基础-概率-高斯分布

数学-机器学习-基础-概率-高斯分布

2.2.6 求高斯分布的联合概率分布

数学-机器学习-基础-概率-高斯分布
数学-机器学习-基础-概率-高斯分布

2.3 问题

2.3.1 目前还无法完整脱稿推出高斯分布的全部特点。

【待完善推导】

参考资料

[1] shuhuai008. 【机器学习】【白板推导系列】【合集 1~23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=1

[2] 从概率密度角度观察高斯分布手稿

数学-机器学习-基础-概率-高斯分布