机器学习理论笔记(4)

高纬度的局部方法

高维的数据相比于低纬度的来说,多了很多麻烦 。s首先,高维取样中,同样比例的邻域往往需要边长较长的取样。为了方便分析,我们假设是在p维单位超立方体中取样。如图,取一个占整个单位体积比例为r的样本,那么取样边长就是

ep(r)=r1p

机器学习理论笔记(4)

那么如果样本空间维度是10,取样大小占总样本的1%,那么每一条边的平均取样边长度就是e10(0.01)0.63,如果取样10%,平均取样边长就是e10(0.1)0.8,也就是说我们取样10%就需要覆盖每个维度的80%
其次,均匀分布的样本点一般都更加靠近边缘处。例如,从原点到最近数据点的一个中值距离是

d(p,N)=(1121N)1p

证明Ex2.3
还有一点就是取样样本密度与N1p成正比,也就是说单输入问题N1=100稠密度的样本,对于10输入问题来说,就需要N10=10010的样本容量。构造一个均匀分布的例子,在[1,1]p中取1000个点,YX的真正关系是:
Y=f(X)=e8X

检验x0=0使用1-最近邻规则预测y0,对1000个样本取均值,考虑f(0)均方误差:
MSE(x0)=E[f(x0)y^0]2=E[y^0E(y^0)]2+[E(y^0)f(x0)]2=Var(y^0)+Bias2(y^0)

备注:由于x0是确定的,所以f(x0)可以看作是常值,上式直接拆开计算比较一下就可以了。上式成为方差偏倚分解。
对于p=1的情况,x0的最近点非常接近0,但是随着维度的增加,最近点逐渐远离。1-NN,MSE,方差,平方偏倚与维度的关系如图。
机器学习理论笔记(4)

高维函数的复杂性往往也是这样指数增长,要达到低维函数相同的精度,训练的数据大小也是呈指数增长的。
如果我们知道YX之间是接近线性的:

Y=XTβ+ε

其中εN(0,σ2)
我们可以写成这样
y^0=x0Tβ+i=1Nli(x0)εi

这里li(x0)表示X(XTX)1x0的第i个元素,因为这种情况下,最小二乘估计是无偏差的。

EPE(x0)=Ey0|x0E(y0y^0)2=Var(y0|x0)+E[y^0Ey^0]2+[Ey^0x0Tx0Tβ]=Var(y0|x0)+Var(y^0)+Bias2(y^0)=σ2+Ex0T(XTX)1x0σ2+02