机器学习_参数估计/贝叶斯(已知解析式求参数)
【1】必要性:已知概率密度函数形式,用样本来估计参数。
【2】最大似然估计:
1.理论:现在已经拿到了很多个样本,那么我们要找一个参数,使这些样本发生的可能性最大。这些样本已经产生了,所以找到的这个参数应当最有利于这些样本的产生。
2.似然函数:实质就是概率函数,含有参数而样本点已经带入的函数。详情见下面。
http://blog.****.net/m0_38034312/article/details/78396551
3.特殊的一点
在正态分布中,均值/方差的最大似然估计是训练样本的均值/方差。
多变量正态分布亦然
4.随着样本点足够多,最大似然估计是渐进无偏的。注意渐进两个字。
而且无偏的意思并不是说他的估计恰好会和真实值一样,是说把参数当做分布,这个分布的均值和真实参数是一样的
所以偏差只是一个验证估计方法是否好的一个指标,这个方法在运行多次后的期望会使准确值。
但是高斯分布下,u未知的情况下对方差的估计是有偏差的。这是因为用到了均值的估计,可能会有偏差,
5.因为在均值未知的情况下,高斯分布的方差估计会有偏差。上面是感性的解释、下面是理性的解释
【3】最大后验概率估计
1.与最大似然估计中把参数当做未知参数不同,最大后验概率把参数当做未知矢量。
两者公式上的差异在于最大后验概率估计中有p(θ),见下图
2.理论 p(参数|X)。理解:已知样本X下那个参数发生的概率越高,就把这个参数当做估计值。
【4】贝叶斯推理
【5】最大熵推理
1.挑选出不确定性最大、最具有信息量的概率密度函数
2.公式