机器学习_参数估计/贝叶斯（已知解析式求参数）

【1】必要性：已知概率密度函数形式，用样本来估计参数。

【2】最大似然估计：

1.理论：现在已经拿到了很多个样本，那么我们要找一个参数，使这些样本发生的可能性最大。这些样本已经产生了，所以找到的这个参数应当最有利于这些样本的产生。

2.似然函数：实质就是概率函数，含有参数而样本点已经带入的函数。详情见下面。

3.特殊的一点

在正态分布中，均值/方差的最大似然估计是训练样本的均值/方差。

多变量正态分布亦然

4.随着样本点足够多，最大似然估计是渐进无偏的。注意渐进两个字。

而且无偏的意思并不是说他的估计恰好会和真实值一样，是说把参数当做分布，这个分布的均值和真实参数是一样的

所以偏差只是一个验证估计方法是否好的一个指标，这个方法在运行多次后的期望会使准确值。

但是高斯分布下，u未知的情况下对方差的估计是有偏差的。这是因为用到了均值的估计，可能会有偏差，

机器学习_参数估计/贝叶斯（已知解析式求参数）

5.因为在均值未知的情况下，高斯分布的方差估计会有偏差。上面是感性的解释、下面是理性的解释

机器学习_参数估计/贝叶斯（已知解析式求参数）

【3】最大后验概率估计

1.与最大似然估计中把参数当做未知参数不同，最大后验概率把参数当做未知矢量。

两者公式上的差异在于最大后验概率估计中有p（θ），见下图

2.理论 p(参数|X)。理解：已知样本X下那个参数发生的概率越高，就把这个参数当做估计值。

机器学习_参数估计/贝叶斯（已知解析式求参数）

【4】贝叶斯推理

【5】最大熵推理

1.挑选出不确定性最大、最具有信息量的概率密度函数

2.公式

机器学习_参数估计/贝叶斯（已知解析式求参数）