统计学习 极大似然估计
【案例引入】
原问题:一个袋子装有100个球,其中黑球70个,白球30个,问拿出一个球是黑球的概率?
很显然概率为0.7
修改后问题:一个袋子装有100个球,拿出10个,其中7个黑球,3个白球,问原先袋子中黑球的比例为多少?
即通过出现的情况现象预估原先模型的参数?
那么可以假设原先黑球比例为p 那么拿出一个球的概率也是p
那么出现7个黑球 3个白球的概率是:
那么使得上述式子最大的P就是原先袋子中黑球比例P的最大可能。
- 假如黑球比例为0.6 那么摸10个球出现7个黑球3个白球的概率是:0.2149
- 假如黑球比例为0.7 那么摸10个球出现7个黑区3个白球的概率是:0.2668
也就是当黑球比例为0.7时,出现这种情况现象的可能最大,
那么原先黑球比例使用0.7估计更为科学准确
因此,极大似然估计即:
利用已知的样本结果信息,反推最具有可能导致这些样本结果出现的模型参数值。
极大似然即通俗意义上理解的最大可能
【计算公式】
根据部分样本信息,猜测原先数据的模型分布参数,极大似然估计提供了一种给定观察数据来评估模型参数的方法
模型已确定,但参数未知,通过样本数据和反复实验确定模型参数使得出现实验结果的可能性最大
其一个使用的重要前提是:样本数据的分布与实际总体数据的分布大致一致。
考虑一个给定的样本集合D={X1,X2,X3,X4...Xn} 其模型参数为θ
那么似然函数为一定模型参数θ对应出现样本结果的概率:P(D|θ)
形式化展开:
而最大似然估计就是寻找使得上述表达式最大的θ 其求解思路如下,首先取对数,转乘为加:
其中Xi为已知数,只有θ为未知数,即对以下方程求解:
以正太分布为例:
可以看到最终结果显示,由部分样本计算出的正态分布的模型参数就是最大似然的计算结果
也就是由部分样本计算出正态分布模型是原数据集正态分布模型的最好估计
【总结】
一般而言最大似然估计的计算流程如下:
- 首先写出最大似然函数
- 对似然函数取对数
- 求解导数
- 解似然方程
最大似然估计的特点是:
- 方法简单
- 收敛性好