∂W∂L=XT∗∂Y∂L
矩阵形状以图中样例为例,W 矩阵为 (2,3) ,X 矩阵为 (1,2),令 M = X * W ,假设 wij 为对 mi 而言,xj 的权重,由全连接层计算公式,有 : mi=∑wij∗xj
所以可知 : wij 在全连接层输出Y的计算中,出现且只出现一次,所以 : ∂wij∂Y=xj
又 : 对 mi 而言,上层传递的导数为∂yi∂L。
以该图为例构造L对参数W的导数矩阵U,以实现更新公式 : W = W - α * U,则有 :
∂W∂L=∂Y∂L∗∂W∂Y=[∂y1∂L∗x1∂y1∂L∗x2∂y2∂L∗x1∂y2∂L∗x2∂y3∂L∗x1∂y3∂L∗x2]=[x1x2]∗[∂y1∂L∂y2∂L∂y3∂L]=XT∗∂Y∂L
∂X∂L=∂Y∂L∗WT
假设 Y( x1,x2 ) = Y( u( x1 , x2 ) , f( x1, x2 ) , φ( x1, x2 ) ),其中 u , f , φ 对应着 y1 , y2 , y3 的输出,以 x1 为例,有 :
∂x1∂L=∂Y∂L∗∂x1∂Y=∂Y∂L∗(∂u∂Y∗∂x1∂u,∂f∂Y∗∂x1∂f,∂φ∂Y∗∂x1∂φ)=∂Y∂L∗(w11,w12,w13)T=w11∗∂y1∂L+w12∗∂y2∂L+w13∗∂y3∂L
即 :
∂x1∂L=∂Y∂L∗(w11,w12,w13)T
∂x2∂L=∂Y∂L∗(w21,w22,w23)T
所以 :
∂X∂L=∂Y∂L∗[w11w21w12w22w13w23]=∂Y∂L∗WT