Logistic Regression为什么不用Square Error???

Logistic Regression为什么不用Square Error???当最后求梯度的时候,如果fw,b(xn)=1f_{w,b}(x^{n}) = 1的时候,梯度为0,正常。但是当fw,b(xn)=0f_{w,b}(x^{n}) = 0时,梯度同样为0,这样就不对了,因为此时的结果是错误的,但是梯度为0却导致学不到任何东西。
Logistic Regression为什么不用Square Error???如上图所示,黑色的为Cross Entropy,当前值距离目标很远的时候,梯度比较大,距离目标比较近的时候梯度小。红色的为Square Error,当前值距离目标远的地方很平缓,导致梯度较小。