EM算法为什么可视为F函数的极大-极大算法?

(本人知乎同名账号亦发了此文)

读前须知

本文面向读者为:正在看李航的《统计学习方法》,看到9.4.1 的F函数的极大-极大算法时不能理解

正文

本文先说求偏导过程,再说F函数,最后谈谈为什么是“极大-极大算法”(两个极大各自是什么)。

求偏导

一、先说求偏导。这块内容其实有很大跳步,卡这半天,刚终于懂了,附上我的手写内容(我猜有人在疑惑为什么求导结果中不含Σ\Sigma?):
EM算法为什么可视为F函数的极大-极大算法?

F函数

二、再说这个函数F,看见上图的引理9.2没?当F取极大时,碰巧就是上图式(9.36),而对这个式子,求 θ\theta 使其极大,不就是EM算法要干的事情了么。

两个“极大”

三、多说一句,为什么是“极大-极大算法”,为什么是两个“极大”,第一个极大,固定 θ\theta ,求 PP^\sim 得到上图式(9.36);第二个极大,就是对(9.36)固定 PP^\sim,求 θ\theta 得到极大,而这第二个极大,正是在本章开篇的三硬币问题中所讲述的、EM算法要解决的问题(见第二版p176式(9.4))。看到这里,再补两张图,希望能帮到读者:
EM算法为什么可视为F函数的极大-极大算法?

EM算法为什么可视为F函数的极大-极大算法?