矩阵的 Frobenius 范数及其求偏导法则

矩阵的迹求导法则

1. 复杂矩阵问题求导方法：可以从小到大，从scalar到vector再到matrix

矩阵的 Frobenius 范数及其求偏导法则

2. x is a column vector, A is a matrix

$\frac{d(A∗x)}{dx}=A$

$\frac{d(x^T∗A)}{dx^T}=A$

$\frac{d(x^T∗A)}{dx}=A^T$

$\frac{d(x^T∗A∗x)}{dx}=x^T(A^T+A)$

3. Practice:

矩阵的 Frobenius 范数及其求偏导法则

4. 矩阵求导计算法则

$Y = A * X \to \frac{DY}{DX} = A^T$

$Y = X * A \to \frac{DY}{DX} = A$

$Y = A^T * X * B \to \frac{DY}{DX} = A * B^T$

$Y = A^T * X^T * B \to \frac{DY}{DX} = B * A^T$

乘积的导数：

$\frac{d(f*g)}{dx}=\frac{df^T}{dx}g+\frac{dg}{dx}f^T$

一些结论：

$Y = [y_{ij}] \to \frac{dY}{dx} = [\frac{dy_{ji}}{dx}]$

$y = f(x_1,x_2,..,x_n) \to \frac{dy}{dX}= (\frac{Dy}{Dx_1},\frac{Dy}{Dx_2},..,\frac{Dy}{Dx_n})^T$

$\frac{dX^T}{dX} =I$ $\frac{d(AX)^T}{dX} =A^T$

$\frac{dY}{dX^T} =(\frac{dY^T}{dX})^T$

$\frac{d(UV^T)}{dX} =(\frac{dU}{dX})V^T + U(\frac{dV^T}{dX})$ ${\frac{d(U^TV)}{dX} =(\frac{dU^T}{dX})V + (\frac{dV^T}{dX}})U^T$

$\frac{d(X^TA)}{dX} =(\frac{dX^T}{dX})A + (\frac{dA}{dX})X^T = IA + 0X^T = A$

$\frac{d(AX)}{dX^T} =(\frac{d(X^TA^T)}{dX})^T = (A^T)^T = A$

$\frac{d(X^TAX)}{dX} =(\frac{dX^T}{dX})AX + (\frac{d(AX)^T}{dX})X = AX + A^TX$

$\frac{d(uV)}{dX} =(\frac{du}{dX})V + u(\frac{dV}{dX})$ $\frac{d(UV)}{dX} =(\frac{dU}{dX})V + U(\frac{dV}{dX})$

$\frac{d(X^TA)}{dX} =(\frac{dX^T}{dX})A + X^T(\frac{dA}{dX}) = IA + X^T0 = A$

$\frac{dy}{dX} = [\frac{Dy}{Dx_{ij}} ]$

$y = U^TXV= ΣΣu_{i}x_{ij}v_{j}$ 于是 $\frac{dy}{dX} = [u_iv_j] =UV^T$

$y = U^TX^TXU$ 则 $\frac{dy}{dX} = 2XUU^T$

$y =(XU-V)^T(XU-V)$ 则

$\frac{dy}{dX} = \frac{d(U^TX^TXU - 2V^TXU + V^TV)}{dX}$

$= 2XUU^T - 2VU^T +0 = 2(XU-V)U^T$

矩阵的 Frobenius 范数及其求偏导法则

矩阵的迹求导法则

1. 复杂矩阵问题求导方法：可以从小到大，从scalar到vector再到matrix

2. x is a column vector, A is a matrix

d(A∗x)dx=A\frac{d(A∗x)}{dx}=Adxd(A∗x)​=A

d(xT∗A)dxT=A\frac{d(x^T∗A)}{dx^T}=AdxTd(xT∗A)​=A

d(xT∗A)dx=AT\frac{d(x^T∗A)}{dx}=A^Tdxd(xT∗A)​=AT

d(xT∗A∗x)dx=xT(AT+A)\frac{d(x^T∗A∗x)}{dx}=x^T(A^T+A)dxd(xT∗A∗x)​=xT(AT+A)

3. Practice:

4. 矩阵求导计算法则

Y=A∗X→DYDX=ATY = A * X \to \frac{DY}{DX} = A^TY=A∗X→DXDY​=AT

Y=X∗A→DYDX=AY = X * A \to \frac{DY}{DX} = AY=X∗A→DXDY​=A

Y=AT∗X∗B→DYDX=A∗BTY = A^T * X * B \to \frac{DY}{DX} = A * B^TY=AT∗X∗B→DXDY​=A∗BT

Y=AT∗XT∗B→DYDX=B∗ATY = A^T * X^T * B \to \frac{DY}{DX} = B * A^TY=AT∗XT∗B→DXDY​=B∗AT

乘积的导数：

d(f∗g)dx=dfTdxg+dgdxfT\frac{d(f*g)}{dx}=\frac{df^T}{dx}g+\frac{dg}{dx}f^Tdxd(f∗g)​=dxdfT​g+dxdg​fT

一些结论：

Y=[yij]→dYdx=[dyjidx]Y = [y_{ij}] \to \frac{dY}{dx} = [\frac{dy_{ji}}{dx}]Y=[yij​]→dxdY​=[dxdyji​​]

y=f(x1,x2,..,xn)→dydX=(DyDx1,DyDx2,..,DyDxn)Ty = f(x_1,x_2,..,x_n) \to \frac{dy}{dX}= (\frac{Dy}{Dx_1},\frac{Dy}{Dx_2},..,\frac{Dy}{Dx_n})^Ty=f(x1​,x2​,..,xn​)→dXdy​=(Dx1​Dy​,Dx2​Dy​,..,Dxn​Dy​)T

dXTdX=I\frac{dX^T}{dX} =IdXdXT​=I d(AX)TdX=AT\frac{d(AX)^T}{dX} =A^TdXd(AX)T​=AT

dYdXT=(dYTdX)T\frac{dY}{dX^T} =(\frac{dY^T}{dX})^TdXTdY​=(dXdYT​)T

d(UVT)dX=(dUdX)VT+U(dVTdX)\frac{d(UV^T)}{dX} =(\frac{dU}{dX})V^T + U(\frac{dV^T}{dX})dXd(UVT)​=(dXdU​)VT+U(dXdVT​) d(UTV)dX=(dUTdX)V+(dVTdX)UT{\frac{d(U^TV)}{dX} =(\frac{dU^T}{dX})V + (\frac{dV^T}{dX}})U^TdXd(UTV)​=(dXdUT​)V+(dXdVT​)UT

d(XTA)dX=(dXTdX)A+(dAdX)XT=IA+0XT=A\frac{d(X^TA)}{dX} =(\frac{dX^T}{dX})A + (\frac{dA}{dX})X^T = IA + 0X^T = AdXd(XTA)​=(dXdXT​)A+(dXdA​)XT=IA+0XT=A

d(AX)dXT=(d(XTAT)dX)T=(AT)T=A\frac{d(AX)}{dX^T} =(\frac{d(X^TA^T)}{dX})^T = (A^T)^T = AdXTd(AX)​=(dXd(XTAT)​)T=(AT)T=A

d(XTAX)dX=(dXTdX)AX+(d(AX)TdX)X=AX+ATX\frac{d(X^TAX)}{dX} =(\frac{dX^T}{dX})AX + (\frac{d(AX)^T}{dX})X = AX + A^TXdXd(XTAX)​=(dXdXT​)AX+(dXd(AX)T​)X=AX+ATX

d(uV)dX=(dudX)V+u(dVdX)\frac{d(uV)}{dX} =(\frac{du}{dX})V + u(\frac{dV}{dX})dXd(uV)​=(dXdu​)V+u(dXdV​) d(UV)dX=(dUdX)V+U(dVdX)\frac{d(UV)}{dX} =(\frac{dU}{dX})V + U(\frac{dV}{dX})dXd(UV)​=(dXdU​)V+U(dXdV​)

d(XTA)dX=(dXTdX)A+XT(dAdX)=IA+XT0=A\frac{d(X^TA)}{dX} =(\frac{dX^T}{dX})A + X^T(\frac{dA}{dX}) = IA + X^T0 = AdXd(XTA)​=(dXdXT​)A+XT(dXdA​)=IA+XT0=A

dydX=[DyDxij]\frac{dy}{dX} = [\frac{Dy}{Dx_{ij}} ]dXdy​=[Dxij​Dy​]

y=UTXV=ΣΣuixijvjy = U^TXV= ΣΣu_{i}x_{ij}v_{j}y=UTXV=ΣΣui​xij​vj​ 于是 dydX=[uivj]=UVT\frac{dy}{dX} = [u_iv_j] =UV^TdXdy​=[ui​vj​]=UVT

y=UTXTXUy = U^TX^TXUy=UTXTXU 则 dydX=2XUUT\frac{dy}{dX} = 2XUU^TdXdy​=2XUUT

y=(XU−V)T(XU−V)y =(XU-V)^T(XU-V)y=(XU−V)T(XU−V) 则

dydX=d(UTXTXU−2VTXU+VTV)dX\frac{dy}{dX} = \frac{d(U^TX^TXU - 2V^TXU + V^TV)}{dX}dXdy​=dXd(UTXTXU−2VTXU+VTV)​

=2XUUT−2VUT+0=2(XU−V)UT= 2XUU^T - 2VU^T +0 = 2(XU-V)U^T=2XUUT−2VUT+0=2(XU−V)UT

d(f∗g)dx=(dfTdx)g+(dgdx)fT\frac{d(f*g)}{dx}=(\frac{df^T}{dx})g+(\frac{dg}{dx})f^Tdxd(f∗g)​=(dxdfT​)g+(dxdg​)fT

$\frac{d(A∗x)}{dx}=A$

$\frac{d(x^T∗A)}{dx^T}=A$

$\frac{d(x^T∗A)}{dx}=A^T$

$\frac{d(x^T∗A∗x)}{dx}=x^T(A^T+A)$

$Y = A * X \to \frac{DY}{DX} = A^T$

$Y = X * A \to \frac{DY}{DX} = A$

$Y = A^T * X * B \to \frac{DY}{DX} = A * B^T$

$Y = A^T * X^T * B \to \frac{DY}{DX} = B * A^T$

$\frac{d(f*g)}{dx}=\frac{df^T}{dx}g+\frac{dg}{dx}f^T$

$Y = [y_{ij}] \to \frac{dY}{dx} = [\frac{dy_{ji}}{dx}]$

$y = f(x_1,x_2,..,x_n) \to \frac{dy}{dX}= (\frac{Dy}{Dx_1},\frac{Dy}{Dx_2},..,\frac{Dy}{Dx_n})^T$

$\frac{dX^T}{dX} =I$ $\frac{d(AX)^T}{dX} =A^T$

$\frac{dY}{dX^T} =(\frac{dY^T}{dX})^T$

$\frac{d(UV^T)}{dX} =(\frac{dU}{dX})V^T + U(\frac{dV^T}{dX})$ ${\frac{d(U^TV)}{dX} =(\frac{dU^T}{dX})V + (\frac{dV^T}{dX}})U^T$

$\frac{d(X^TA)}{dX} =(\frac{dX^T}{dX})A + (\frac{dA}{dX})X^T = IA + 0X^T = A$

$\frac{d(AX)}{dX^T} =(\frac{d(X^TA^T)}{dX})^T = (A^T)^T = A$

$\frac{d(X^TAX)}{dX} =(\frac{dX^T}{dX})AX + (\frac{d(AX)^T}{dX})X = AX + A^TX$

$\frac{d(uV)}{dX} =(\frac{du}{dX})V + u(\frac{dV}{dX})$ $\frac{d(UV)}{dX} =(\frac{dU}{dX})V + U(\frac{dV}{dX})$

$\frac{d(X^TA)}{dX} =(\frac{dX^T}{dX})A + X^T(\frac{dA}{dX}) = IA + X^T0 = A$

$\frac{dy}{dX} = [\frac{Dy}{Dx_{ij}} ]$

$y = U^TXV= ΣΣu_{i}x_{ij}v_{j}$ 于是 $\frac{dy}{dX} = [u_iv_j] =UV^T$

$y = U^TX^TXU$ 则 $\frac{dy}{dX} = 2XUU^T$

$y =(XU-V)^T(XU-V)$ 则

$\frac{dy}{dX} = \frac{d(U^TX^TXU - 2V^TXU + V^TV)}{dX}$

$= 2XUU^T - 2VU^T +0 = 2(XU-V)U^T$

$\frac{d(f*g)}{dx}=(\frac{df^T}{dx})g+(\frac{dg}{dx})f^T$