李航第一章课后习题答案

统计学习方法的三要素是模型、策略、算法。

伯努利模型是定义在取值为0与1的随机变量上的概率分布。

统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。

极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型;极大似然估计用的是经典统计学派的策略,贝叶斯估计用的是贝叶斯统计学派的策略;为了得到使经验风险最小的参数值,使用的算法都是对经验风险求导,使导数为0.

定义随机变量A为一次伯努利试验的结果,A的取值为{0,1},概率分布为P(A):
P(A=1)=θP(A=1)=\theta
P(A=0)=1θP(A=0)=1-\theta

下面分布用极大似然估计和贝叶斯估计来估计\theta的值。

极大似然估计:
L(θ)=i=1nP(Ai)=θk(1θ)nkL(θ)=i=1nP(Ai)=θk(1θ)nkL(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k}L(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k}
A_iA_i代表第i次随机试验。
θ=argmaxθL(θ)=knθ=argmaxθL(θ)=kn\theta=arg\max \limits_\theta L(\theta)=\frac{k}{n}\theta=arg\max \limits_\theta L(\theta)=\frac{k}{n}

贝叶斯估计:
P(θA1,A2,...,An)P(\theta|A_1,A_2,...,A_n)
=P(A1,A2,...Anθ)π(θ)P(A1,A2,...,An)=\frac{P(A_1,A_2,...A_n|\theta)\pi(\theta)}{P(A_1,A_2,...,A_n)}

根据观察到的结果修正θ\theta,也就是假设θ\theta是随机变量,thetatheta服从β\beta分布,有很多个可能的取值,我们要取的值时在已知观察结果的条件下使θ\theta出现概率最大的值。上式分母是不变的,求分子最大就可以。

θ\theta
=argmaxθP(A1,A2,...Anθ)P(θ)=arg\max \limits_\theta {P(A_1,A_2,...A_n|\theta)P(\theta)}
=argmaxθi=1nP(Aiθ)P(θ)= arg\max \limits_\theta {\prod_{i=1}^{n}P(A_i|\theta)P(\theta)}
=argmaxθθk(1θ)nkθa1(1θ)b1=arg \max \limits_\theta {\theta^k(1-\theta)^{n-k}\theta^{a-1}(1-\theta)^{b-1}}
=k+(a1)n+(a1)+(b1)=\frac{k+(a-1)}{n+(a-1)+(b-1)}

其中a,b是β\beta分布中的参数
β(θ;a,b)=θa1(1θ)b1\beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一个常数}
选定a,b后就可以确定θ\theta
如选择a=b=2,则θ=k+1n+2\theta=\frac{k+1}{n+2}
(a,b怎么选最合理,我不知道。)(a,b怎么选最合理,我不知道。)
如果错误,欢迎指正。
参考:

http://blog.csdn.net/a358463121/article/details/52562940
http://blog.csdn.net/guohecang/article/details/52313046
http://www.math.zju.edu.cn/webpagenew/UploadFiles/AttachFiles/2010421221717128.pdf
https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/
http://www.guokr.com/question/547339/
http://blog.csdn.net/guohecang/article/details/52313046

下图是β\beta分布:
李航第一章课后习题答案
β(θ;a,b)=θa1(1θ)b1β(θ;a,b)=θa1(1θ)b1\beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一个常数}\beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一个常数}

1.2

模型是条件概率分布:Pθ(YX)Pθ(YX)P_\theta(Y|X)P_\theta(Y|X)
损失函数是对数损失函数:L(Y,P(YX))=logP(YX)L(Y,P(YX))=logP(YX)L(Y,P(Y|X))=-logP(Y|X)L(Y,P(Y|X))=-logP(Y|X)
经验风险为:
Remp(f)R_{emp}(f)
=1Ni=1NL(yi,f(xi))=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))
=1Ni=1NlogP(yixi)=\frac{1}{N}\sum_{i=1}^{N}-logP(y_i|x_i)
=1Ni=1NlogP(yixi)=-\frac{1}{N}\sum_{i=1}^{N}logP(y_i|x_i)

最小化经验风险,也就是最大化sumi=1NlogP(yixi)i=1NlogP(yixi)sum_{i=1}^{N}logP(y_i|x_i)\sum_{i=1}^{N}logP(y_i|x_i)
也就是最大化prodi=1NP(yixi)i=1NP(yixi)prod_{i=1}^{N}P(y_i|x_i)\prod_{i=1}^{N}P(y_i|x_i)
这个就是极大似然估计。