第一节课
第二节课
第三节课
第四节课 density estimation
介绍:
令X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , . . . , X n 是来自分布P P P 的密度为p p p 的样本,非参数密度估计目标就是在最少的关于密度p p p 的假设的情况对p p p 进行估计。我们用p ^ \hat p p ^ 来表示p p p 的估计。这个估计会依赖一个光滑的参数h h h ,小心的选择h h h 是关键的。为了强调这个对h h h 的依赖,我们使用p ^ h \hat p_h p ^ h 记号。
密度估计可被用于:回归、分类、聚类、无监督预测。举例而言:如果p ^ ( x , y ) \hat p(x,y) p ^ ( x , y ) 是p ( x , y ) p(x,y) p ( x , y ) 的一个估计,那么我们可以得到回归函数的以下估计:m ^ ( x ) = ∫ y ( ^ y ∣ x ) d y \hat m(x)=\int y\hat (y|x)dy m ^ ( x ) = ∫ y ( ^ y ∣ x ) d y
其中p ^ ( y ∣ x ) = p ^ ( y , x ) p ^ ( x ) \hat p(y|x)=\hat p(y,x)\hat p(x) p ^ ( y ∣ x ) = p ^ ( y , x ) p ^ ( x ) .对于分类问题而言,我们回忆Bayes rule:h ( x ) = I ( p 1 ( x ) π 1 > p 0 ( x ) π 0 ) h(x)=I(p_1(x)\pi_1>p_0(x)\pi_0) h ( x ) = I ( p 1 ( x ) π 1 > p 0 ( x ) π 0 )
其中π 1 = P ( Y = 1 ) , π 0 = P ( Y = 0 ) , p 1 ( x ) = p ( x ∣ y = 1 ) \pi_1=\mathbb{P}(Y=1),\pi_0=\mathbb{P}(Y=0),p_1(x)=p(x|y=1) π 1 = P ( Y = 1 ) , π 0 = P ( Y = 0 ) , p 1 ( x ) = p ( x ∣ y = 1 ) ,p 0 ( x ) = p ( x ∣ y = 0 ) p_0(x)=p(x|y=0) p 0 ( x ) = p ( x ∣ y = 0 ) .输入样本对于π 1 , π 0 \pi_1,\pi_0 π 1 , π 0 的估计,对p 1 , p 0 p_1,p_0 p 1 , p 0 的密度估计则会产生一个基于Bayes rule的预测。很多你熟悉的分类器可以被用这种方式重新表述。
损失函数
最常使用的损失函数是L 2 L_2 L 2 损失:∫ ( p ^ − p ( x ) ) 2 d x = ∫ p ^ 2 ( x ) d x − 2 ∫ p ^ ( x ) p ( x ) + ∫ p 2 ( x ) d x \int(\hat p-p(x))^2dx=\int\hat p^2(x)dx-2\int\hat p(x)p(x)+\int p^2(x)dx ∫ ( p ^ − p ( x ) ) 2 d x = ∫ p ^ 2 ( x ) d x − 2 ∫ p ^ ( x ) p ( x ) + ∫ p 2 ( x ) d x
风险是 R ( p , p ^ ) = E ( L ( p , p ^ ) ) R(p,\hat p)=\mathbb{E}(L(p,\hat p)) R ( p , p ^ ) = E ( L ( p , p ^ ) ) 。
Devroye and Gyorfi(1985) 强烈推荐使用 L 1 L_1 L 1 范数∥ p ^ − p ∥ 1 ≡ ∫ ∣ p ^ ( x ) − p ( x ) ∣ d x \|\hat p-p\|_1\equiv\int|\hat p(x)-p(x)|dx ∥ p ^ − p ∥ 1 ≡ ∫ ∣ p ^ ( x ) − p ( x ) ∣ d x
作为L 2 L_2 L 2 范数的代替。L 1 L_1 L 1 损失有以下的良好解释:如果P , Q P,Q P , Q 是分布,定义全变差度量:d T V ( P , Q ) = s u p A ∣ P ( A ) − Q ( A ) ∣ d_{TV}(P,Q)=sup_A|P(A)-Q(A)| d T V ( P , Q ) = s u p A ∣ P ( A ) − Q ( A ) ∣
上确界取遍所有的可测集。如果P , Q P,Q P , Q 有密度p , q p,q p , q 那么有:d T V ( P , Q ) = 1 2 ∫ ∣ p − q ∣ = 1 2 ∥ p − q ∥ 1 d_{TV}(P,Q)=\frac{1}{2}\int|p-q|=\frac{1}{2}\|p-q\|_1 d T V ( P , Q ) = 2 1 ∫ ∣ p − q ∣ = 2 1 ∥ p − q ∥ 1
因此,如果∫ ∣ p − q ∣ < δ \int|p-q|<\delta ∫ ∣ p − q ∣ < δ 那么我们知道∣ P ( A ) − Q ( A ) ∣ < δ 2 |P(A)-Q(A)|<\frac{\delta}{2} ∣ P ( A ) − Q ( A ) ∣ < 2 δ 对于所有的A A A 。同样的,L 1 L_1 L 1 范数是一个变形不变量(transformation invariant)。假设T T T 是一个一对一的光滑映射,令Y = T ( X ) Y=T(X) Y = T ( X ) 。令p p p 和q q q 是X X X 的密度,令p ^ , q ^ \hat p,\hat q p ^ , q ^ 是相应的Y Y Y 的密度,那么:∫ ∣ p ( x ) − q ( x ) ∣ d x = ∫ ∣ p ^ ( y ) − q ^ ( y ) ∣ d y \int|p(x)-q(x)|dx=\int|\hat p(y)-\hat q(y)|dy ∫ ∣ p ( x ) − q ( x ) ∣ d x = ∫ ∣ p ^ ( y ) − q ^ ( y ) ∣ d y
因此在此定义下的距离不会因为一一映射而改变,但无论如何我们还是聚焦于L 2 L_2 L 2 损失。
Histograms直方图
Perhaps the simplest density estimators are histograms. For convenience, assume that the data X 1 , . . . , X n X_1,...,X_n X 1 , . . . , X n are contained in the unit cube X = [ 0 , 1 ] d X = [0,1]^d X = [ 0 , 1 ] d (although this assumption is not crucial). Divide X \mathcal X X into bins, or sub-cubes, of size h h h . We discuss methods for choosing h h h later.
Kernel Density Estimation核密度估计
一个以为的光滑核(smoothing kernel)是任意的一个光滑函数(其定义域内无穷阶数连续可导的函数)K K K 满足∫ K ( x ) d x = 1 , \int K(x)dx=1, ∫ K ( x ) d x = 1 , x ∫ K ( x ) d x = 0 , σ k 2 ≡ ∫ x 2 K ( x ) d x > 0 x\int K(x)dx=0,\sigma_k^2\equiv\int x^2K(x)dx>0 x ∫ K ( x ) d x = 0 , σ k 2 ≡ ∫ x 2 K ( x ) d x > 0 。一些常用的核函数如下所示:Boxcar :K ( x ) = 1 2 I ( x ) K(x)=\frac{1}{2}I(x) K ( x ) = 2 1 I ( x ) Gaussian :K ( x ) = 1 2 π e − x 2 2 K(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} K ( x ) = 2 π 1 e − 2 x 2 Epanechnikov :K ( x ) = 3 4 ( 1 − x 2 ) I ( x ) K(x)=\frac{3}{4}(1-x^2)I(x) K ( x ) = 4 3 ( 1 − x 2 ) I ( x ) Tricube :K ( x ) = 70 81 ( 1 − ∣ x ∣ 3 ) 3 I ( x ) K(x)=\frac{70}{81}(1-|x|^3)^3I(x) K ( x ) = 8 1 7 0 ( 1 − ∣ x ∣ 3 ) 3 I ( x )
其中I ( x ) = 1 I(x)=1 I ( x ) = 1 如果∣ x ∣ ≤ 1 |x|\leq 1 ∣ x ∣ ≤ 1 。否则I ( x ) = 0 I(x)=0 I ( x ) = 0 .这些核的图像如下,常用的多维的核是∏ j = 1 d K ( x j ) , K ( ∥ x ∥ ) \prod_{j=1}^dK(x_j),K(\|x\|) ∏ j = 1 d K ( x j ) , K ( ∥ x ∥ ) 。
给定一个X ∈ R d X\in\mathcal{R}^d X ∈ R d 。给定一个核K K K 和一个正数h h h ,称之为窗宽(bandwidth),核密度的估计定义为:p ^ ( x ) = 1 n ∑ i = 1 n h d K ( ∥ x − X i ∥ h ) \hat p(x)=\frac{1}{n}\sum_{i=1}^ n{h^dK(\frac{\|x-X_i\|}{h})} p ^ ( x ) = n 1 i = 1 ∑ n h d K ( h ∥ x − X i ∥ )
更一般的我们定义:p ^ H ( x ) = 1 2 ∑ i = 1 n K H ( x − X i ) \hat p_H(x)=\frac{1}{2}\sum_{i=1}^nK_H(x-X_i) p ^ H ( x ) = 2 1 i = 1 ∑ n K H ( x − X i )
其中H H H 是一个正数定义了窗宽矩阵(bandwidth matrix)以及K H = ∣ H ∣ − 1 2 K ( H − 1 2 x ) K_H=|H|^{-\frac{1}{2}}K(H^{-\frac{1}{2}}x) K H = ∣ H ∣ − 2 1 K ( H − 2 1 x ) ,为了简化表达,我们令H = h 2 I H=h^2I H = h 2 I ,然后我们得到先前的公式。
有时我们使用记号p ^ h \hat p_h p ^ h 来表达p ^ \hat p p ^ 对width h h h 的依赖性。在多元的情况下,每个样本的坐标X i X_i X i 应当被标准化来使每个样本是同方差的,因为范数 ∥ x − X i ∥ \|x-X_i\| ∥ x − X i ∥ 把所有的坐标看做它们是在同一度量下。
核估计对于每个数据点X i X_i X i 都放置了一个size是1 n \frac{1}{n} n 1 的质量块,见图3。核的形式选择没有h h h 的选择关键。一个较小的h h h 会带来一个粗糙的估计,一个较大的h h h 会带来一个更光滑的估计。
4.1Risk Analysis
在这节中我们测试核密度的准确性,首先我们需要一些定义:
假设X i ∈ X ⊂ R d X_i\in\mathcal{X}\subset\mathbb{R}^d X i ∈ X ⊂ R d 其中X \mathcal{X} X 是紧集。令β , L \beta,L β , L 是正数。给定一个向量s = ( s 1 , . . . , s d ) s=(s_1,...,s_d) s = ( s 1 , . . . , s d ) ,定义∣ s ∣ = s 1 + . . . + s d |s|=s_1+...+s_d ∣ s ∣ = s 1 + . . . + s d ,s ! = s 1 ! . . . s d ! s!=s_1!...s_d! s ! = s 1 ! . . . s d ! ,x s = x 1 s 1 . . . x d s d x^s=x_1^{s_1}...x_d^{s_d} x s = x 1 s 1 . . . x d s d 并且D s = ∂ s 1 + . . . + s d ∂ x 1 s 1 . . . ∂ x d s d D^s=\frac{\partial^{s_1+...+s_d}}{\partial x_1^{s_1}...\partial x_d^{s_d}} D s = ∂ x 1 s 1 . . . ∂ x d s d ∂ s 1 + . . . + s d
令β \beta β 是一个正整数。定义 Holder class:∑ ( β , L ) = { g : ∣ D s g ( x ) − D s g ( y ) ∣ ≤ L ∥ x − y ∥ , f o r a l l s s u c h t h a t ∣ s ∣ = β − 1 , a n d a l l x , y } \sum(\beta,L)=\{g:|D^sg(x)-D^sg(y)|\leq L\|x-y\|,for\ all\ s\ such\ that
|s|=\beta-1,and\ all\ x,y\} ∑ ( β , L ) = { g : ∣ D s g ( x ) − D s g ( y ) ∣ ≤ L ∥ x − y ∥ , f o r a l l s s u c h t h a t ∣ s ∣ = β − 1 , a n d a l l x , y }
举例而言,如果d = 1 , β = 2 d=1,\beta=2 d = 1 , β = 2 也就意味着:∣ g ′ ( x ) − g ′ ( y ) ∣ ≤ L ∣ x − y ∣ , f o r a l l x , y |g'(x)-g'(y)|\leq L|x-y|,for\ all\ x,y ∣ g ′ ( x ) − g ′ ( y ) ∣ ≤ L ∣ x − y ∣ , f o r a l l x , y
最常见的情况就是β = 2 \beta=2 β = 2 ,粗略来说这意味着函数被二阶导数限制。
如果g ∈ ∑ ( β , L ) g\in\sum(\beta,L) g ∈ ∑ ( β , L ) 那么g ( x ) g(x) g ( x ) 和他的泰勒级数展开是接近的:∣ g ( u ) − g x , β ( u ) ∣ ≤ L ∥ u − x ∥ β |g(u)-g_{x,\beta}(u)|\leq L\|u-x\|^\beta ∣ g ( u ) − g x , β ( u ) ∣ ≤ L ∥ u − x ∥ β
现在假设核K K K 有形式K ( x ) = G ( x 1 ) . . . G ( x d ) K(x)=G(x_1)...G(x_d) K ( x ) = G ( x 1 ) . . . G ( x d ) 其中G G G 定义在[ − 1 , 1 ] , ∫ G = 1 , ∫ ∣ G ∣ p < ∞ [-1,1],\int G=1,\int|G|^p<\infty [ − 1 , 1 ] , ∫ G = 1 , ∫ ∣ G ∣ p < ∞ 对任意的p > 1 p>1 p > 1 都成立,∫ ∣ t ∣ β ∣ K ( t ) ∣ d t < ∞ , ∫ t s K ( t ) = 0 \int|t|^\beta|K(t)|dt<\infty,\int t^sK(t)=0 ∫ ∣ t ∣ β ∣ K ( t ) ∣ d t < ∞ , ∫ t s K ( t ) = 0 对于所有的s ≤ ⌊ β ⌋ s\leq\lfloor\beta\rfloor s ≤ ⌊ β ⌋ 。
一个核函数的例子在β = 2 \beta=2 β = 2 的情况下满足这些条件的是G ( x ) = ( 3 / 4 ) ( 1 − x 2 ) G(x)=(3/4)(1-x^2) G ( x ) = ( 3 / 4 ) ( 1 − x 2 ) 对所有的∣ x ∣ < 1 |x|<1 ∣ x ∣ < 1 。构造一个满足∫ t s K ( t ) d t = 0 \int t^sK(t)dt=0 ∫ t s K ( t ) d t = 0 对所有β > 2 \beta>2 β > 2 的核函数需要这个核函数可以取负值。
令p h ( x ) = E [ p ^ h ( x ) ] p_h(x)=\mathbb{E}[\hat p_h(x)] p h ( x ) = E [ p ^ h ( x ) ] 。下一个引理提供了一个偏差p h ( x ) − p ( x ) p_h(x)-p(x) p h ( x ) − p ( x ) 的界限。
引理 3
p ^ \hat p p ^ 的偏差满足:s u p p ∈ ∑ ( β , L ) ∣ p h ( x ) − p ( x ) ∣ ≤ c h β sup_{p\in\sum(\beta,L)}|p_h(x)-p(x)|\leq ch^\beta s u p p ∈ ∑ ( β , L ) ∣ p h ( x ) − p ( x ) ∣ ≤ c h β
对于某个c
证明:我们有:
第一项被L h β ∫ K ( s ) ∣ s ∣ β Lh^{\beta}\int K(s)|s|^\beta L h β ∫ K ( s ) ∣ s ∣ β 限制因为p ∈ ∑ ( β , L ) p\in\sum(\beta,L) p ∈ ∑ ( β , L ) 。第二项是0因为K的性质 p x , β ( x + h v ) − p ( x ) p_{x,\beta}(x+hv)-p(x) p x , β ( x + h v ) − p ( x ) 是一个阶数为⌊ β ⌋ \lfloor\beta\rfloor ⌊ β ⌋ 的多项式(没有常数项)。
下面,我们来限制方差:
引理 4
p ^ h \hat p_h p ^ h 的方差满足:s u p p ∈ ∑ ( β , L ) V a r ( p ^ h ( x ) ) ≤ c n h d sup_{p\in\sum(\beta,L)}Var(\hat p_h(x))\leq \frac{c}{nh^d} s u p p ∈ ∑ ( β , L ) V a r ( p ^ h ( x ) ) ≤ n h d c
对于某个c
阅读资料:
Density Estimation 10/36-702https://blog.****.net/weixin_37801695/article/details/84918980 https://blog.****.net/liangzuojiayi/article/details/78152180 https://blog.****.net/unixtch/article/details/78556499