机器学习 之 作业1

作业 1: 经验风险最小化 vs. 结构风险最小化

[1] 解释:期望风险最小,经验风险最小化和结构风险最小化;

那么如果想知道模型对训练样本中所有的样本的预测能力,那就是经验风险,经验风险是对训练集中的所有样本点损失函数的总和最小化。经验风险越小说明模型对训练集的拟合程度越好。

我们知道未知的样本数据的数量是不容易确定的,所以就没有办法用所有样本损失函数的总和的最小化这个方法,那么用期望来衡量这个模型对所有的样本(包含未知的样本和已知的训练样本)预测能力。这就是期望风险,期望风险表示的是全局的概念,表示的是决策函数对所有的样本预测能力的大小。

但只考虑经验风险的话,会出现过拟合的现象,过拟合的极端情况便是模型对训练集中所有的样本点都有最好的预测能力,但是对于非训练集中的样本数据,模型的预测能力非常不好。这个时候就引出了结构风险。结构风险是对经验风险和期望风险的折中。在经验风险函数后面加一个正则化项:
R ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R(f)=\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f) R(f)=N1i=1NL(yi,f(xi))+λJ(f)
经验风险越小,模型决策函数越复杂,其包含的参数越多,当经验风险函数小到一定程度就出现了过拟合现象。那么我们要想防止过拟合现象的方式,即降低决策函数的复杂度。也即,让惩罚项 J ( f ) J(f) J(f)(式子复杂度)最小化,于是现在就出现两个需要最小化的函数了。我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化,一个简单的办法把两个式子融合成一个式子(得到结构风险函数)然后对这个函数进行最小化。

[2] 当模型是条件概率分布(比如 y | x ~ N ( w T x , 1 ) y|x ~ N(w^Tx, 1) yxN(wTx,1)),当损失函数是对数损失函数时,
(2.1) 经验风险最小化等价于极大似然估计;
经验风险最小化是所有误差函数和的最小化
误差函数是什么?是对数损失函数,那么什么是对数损失函数?
机器学习 之 作业1

(2.2) 结构风险最小化等价于最大后验概率估计