高纬度的局部方法
高维的数据相比于低纬度的来说,多了很多麻烦 。s首先,高维取样中,同样比例的邻域往往需要边长较长的取样。为了方便分析,我们假设是在p维单位超立方体中取样。如图,取一个占整个单位体积比例为r的样本,那么取样边长就是
ep(r)=r1p
那么如果样本空间维度是10,取样大小占总样本的1%,那么每一条边的平均取样边长度就是e10(0.01)≈0.63,如果取样10%,平均取样边长就是e10(0.1)≈0.8,也就是说我们取样10%就需要覆盖每个维度的80%
其次,均匀分布的样本点一般都更加靠近边缘处。例如,从原点到最近数据点的一个中值距离是
d(p,N)=(1−121N)1p
证明Ex2.3
还有一点就是取样样本密度与
N1p成正比,也就是说单输入问题
N1=100稠密度的样本,对于10输入问题来说,就需要
N10=10010的样本容量。构造一个均匀分布的例子,在
[−1,1]p中取1000个点,
Y与
X的真正关系是:
Y=f(X)=e−8∥X∥
检验
x0=0使用1-最近邻规则预测
y0,对1000个样本取均值,考虑
f(0)均方误差:
MSE(x0)=E[f(x0)−y^0]2=E[y^0−E(y^0)]2+[E(y^0)−f(x0)]2=Var(y^0)+Bias2(y^0)
备注:由于
x0是确定的,所以
f(x0)可以看作是常值,上式直接拆开计算比较一下就可以了。上式成为方差偏倚分解。
对于
p=1的情况,
x0的最近点非常接近0,但是随着维度的增加,最近点逐渐远离。1-NN,MSE,方差,平方偏倚与维度的关系如图。
高维函数的复杂性往往也是这样指数增长,要达到低维函数相同的精度,训练的数据大小也是呈指数增长的。
如果我们知道Y与X之间是接近线性的:
Y=XTβ+ε
其中
ε∼N(0,σ2)
我们可以写成这样
y^0=xT0β+∑i=1Nli(x0)εi
这里
li(x0)表示
X(XTX)−1x0的第
i个元素,因为这种情况下,最小二乘估计是无偏差的。
EPE(x0)=Ey0|x0E(y0−y^0)2=Var(y0|x0)+E[y^0−Ey^0]2+[Ey^0−xT0−xT0β]=Var(y0|x0)+Var(y^0)+Bias2(y^0)=σ2+ExT0(XTX)−1x0σ2+02