Lu Z, Pu H, Wang F, et al. The expressive power of neural networks: a view from the width[C]. neural information processing systems, 2017: 6232-6240.
@article{lu2017the,
title={The expressive power of neural networks: a view from the width},
author={Lu, Zhou and Pu, Hongming and Wang, Feicheng and Hu, Zhiqiang and Wang, Liwei},
pages={6232–6240},
year={2017}}
概
Universal approximation theorem-wiki, 这个定理分成俩个部分, 第一个部分是Unbounded Width Case, 这篇文章是Bounded Width Case (ReLu网络).
主要内容
定理1
另外, 定理1中的网络由若干个(视ϵ而定) blocks排列而成, 每个block具有以下性质:
- depth: 4n+1, width: n+4 的神经网络
- 在一个范围外其“函数值”为0
- 它能够存储样本信息
- 它会加总自身的信息和前面的逼近信息
定理2
定理3
定理4
定理1的证明
因为主要关注定理1, 所以讲下这个部分的证明(实际上是因为其它懒得看了).
假设x=(x1,x2,…,xn)为输入, f是L1可积的, 对于任意的ϵ>0, 存在N>0满足
∫∪i=1n∣xi∣≥N∣f∣dx<2ϵ.
定义下列符号:
则我们有:
∫Rn∣f−(f1−f2)∣dx<2ϵ,
对于i=1,2, 既然VEi是可测的(且测度小于+∞), 则我们能找到有限个n+1维的矩体去逼近(原文用了cover, 但是我感觉这里用互不相交的矩体才合理), 并有
m(VEiΔ∪jJj,i)<8ϵ,
不出意外Δ应该就是\.
假设Jj,i有ni个, 且
每一个Jj,i对应一个指示函数:
ϕj,i(x)={10x∈Xj,ix∈Xj,i.
则
这个在实变函数将多重积分, 提到的下方图形集有讲到.
于是我们有(−f1−f2+f1+f2−f+f然后拆开来就可以得到不等式)
现在我们要做的就是通过神经网络拟合φj,i去逼近ϕj,i, 使得
现在来讲, 如果构造这个神经网络:
一个block有4n+1层, 每层的width是n+4, 注意到所有层的前n个Node都是一样的用来保存样本信息. 我们用Ri,j,Bk,i=1,2,3,4,j=1,…,n+4,k=1,…,n, 表示第k个Unit(每个Unit有4层)的第i层的第j个Node.
注意: R2,n+3,B1应该是(x1−a1)+/δ, 最开始的结构图中的对的. 我们来看一下, 什么样的x=(x1,…,xn), 会使得L1不为0.
如果x1=a1+δ(b1−a1)+ϵ, 这里ϵ>0是一个任意小量, 和上文中的ϵ没有关系. 此时(当δ<1/2)
δ(x1−b1+δ(b1−a1))+=0,
当δ足够小的时候
δ(x1−a1)+=0,
此时L1=1, 类似地, 可以证明, 当δ→0的时候, x1∈(a1+δ(b1−a1),b1−δ(b1−a1))时, L1=1, 否则为0.
Ri,j,Bk的定义是类似的, 只是
Lk=((Lk−1−(xk−bk+δ(ak−bk))+/δ)+−(1−(xk−ak)+/δ)+)+,
可以证明, 当δ→0, 且xt∈(at+δ(bt−at),bt−δ(bt−at)),t=1,2,…,k的时候, Lk=1., 这样我们就构造了一个指示函数, 如果这个这函数对应的i为1则将Ln存入n+1 Node, 否则 n+2 Node (实际上, 我感觉应该存的是bn+1,j,iLn), 则
这里μ相当于Ln. 所以多个blocks串联起来后, 我们就得到了一个函数, 且这个函数是我们想要的.
这个直接通过超距体体积计算得来的, 我们只需要取:
最后
令g:=∑i=12∑j=1ni(−1)i+1bn+1,j,iμj,i,便有
此即定理1的证明.