Logistic Regression为什么不用Square Error???
当最后求梯度的时候,如果的时候,梯度为0,正常。但是当时,梯度同样为0,这样就不对了,因为此时的结果是错误的,但是梯度为0却导致学不到任何东西。
如上图所示,黑色的为Cross Entropy,当前值距离目标很远的时候,梯度比较大,距离目标比较近的时候梯度小。红色的为Square Error,当前值距离目标远的地方很平缓,导致梯度较小。
当最后求梯度的时候,如果的时候,梯度为0,正常。但是当时,梯度同样为0,这样就不对了,因为此时的结果是错误的,但是梯度为0却导致学不到任何东西。
如上图所示,黑色的为Cross Entropy,当前值距离目标很远的时候,梯度比较大,距离目标比较近的时候梯度小。红色的为Square Error,当前值距离目标远的地方很平缓,导致梯度较小。