-
回归任务
定义一个概率分布函数,假设其符合高斯分布,令fW(x)为输入为x、权重为W的网络的输出,并将fW(x)看作均值μ,则有:
p(y∣fW(x))=N(fW(x),σ2)
取log可得:
logp(y∣fW(x))=−2σ21∣∣y−fW(x)∣∣2−log2πσ∝−2σ21∣∣y−fW(x)∣∣2−logσ
当有两个输出y1和y2时:
p(y1,y2∣fW(x))=p(y1∣fW(x))⋅p(y2∣fW(x))=N(y1;fW(x),σ12)⋅N(y2;fW(x),σ22)
则定义:
L(W,σ1,σ2)=−logp(y1,y2∣fW(x))∝2σ121∣∣y1−fW(x)∣∣2+2σ221∣∣y2−fW(x)∣∣2+logσ1σ2=2σ121L1(W)+2σ221L2(W)+logσ1σ2,L1(W)=∣∣y1−fW(x)∣∣2,L2(W)=∣∣y2−fW(x)∣∣2
-
分类任务
定义概率分布函数:
P(y∣fW(x),σ)=Softmax(σ21fW(x))
考虑到Softmax(x)=∑iexp(xi)exp(xi),则log似然函数可化简为:
logp(y=c∣fW(x),σ)=σ21fcW(x)−logc′∑exp(σ21fc′W(x)),其中,fc’W(x)是fcW(x)向量的第c个元素.
接下来,取log,定义新的Loss:
L(W,σ)=−logp(y=c∣fW(x),σ)
令L1(W)=−logSoftmax(y,fW(x)),即y的cross entropy loss.那么上式可继续化简:
L(W,σ)=−logp(y=c∣fW(x),σ)=−logp(y=c∣fW(x),σ)+σ21L1(W)−σ21L1(W)=σ21L1(W)−logp(y=c∣fW(x),σ)−σ21L1(W)=σ21L1(W)−σ21fcW(x)+logc′∑exp(σ21fc′W(x))+σ21logSoftmax(y=c,fW(x))=σ21L1(W)−σ21fcW(x)+logc′∑exp(σ21fc′W(x))+σ21[fcW(x)−logc′∑exp(fc′W(x))]=σ21L1(W)+log[∑c′exp(fc′W(x))]σ21∑c′exp(σ21fc′W(x)
”上方的推导过程加入了个人的理解,如有问题,感谢指出“
当σ→1时,σ1∑c′exp(σ21fc′W(x))≈[∑c′exp(fc′W(x))]σ21,则上式可继续化简为:
L(W,σ)=σ21L1(W)+log[∑c′exp(fc′W(x))]σ21∑c′exp(σ21fc′W(x)=σ21L1(W)+logσ[∑c′exp(fc′W(x))]σ21σ1∑c′exp(σ21fc′W(x)≈σ21L1(W)+logσ
-
两种类型的混合任务,假设y1是连续输出,y2是离散输出
根据1.和2.的推导可得联合Loss L(W,σ1,σ2)如下图:

其中,L1(W)=∣∣y1−fW(x)∣∣2,L2(W)=−logSoftmax(y2,fW(x)).