logistic回归代价函数的凸性分析

logistic回归的代价函数为:J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]
其中,m 是样本个数,(x(i),y(i))(x^{(i)},y^{(i)})是第 ii 个样本,而 hθh_\theta 表达式是:hθ(x)=11+eθTxh_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}

我们用梯度下降法找到最合适的参数 θ\theta ,如果代价函数是 θ\theta 的一个凸函数,可以保证到达全局最优点,否则只能是局部最优点。现在,我们来对该代价函数的凸性进行分析:

[预备知识] Boyd的《convex optimization》一书中给出的一些基础知识:
(a). 72页:Log-sum-exp函数是凸函数:
logistic回归代价函数的凸性分析
(b). 83页:复合函数的凸性:
logistic回归代价函数的凸性分析
logistic回归代价函数的凸性分析

[分析] 首先,我们只对某一个样本(x(i),y(i))(x^{(i)},y^{(i)})进行分析:
log[hθ(x(i))]=log[11+eθTx(i)]=log(1+eθTx(i))log[h_\theta(x^{(i)})]=log[\frac{1}{1+e^{-\theta^Tx^{(i)}}}]=-log(1+e^{-\theta^Tx^{(i)}})\quad是一个根据预备知识(a), log(1+et)log(1+e^{t})tt 的一个凸函数。(evluated at t0=1,t1=tt_0=1,t_1=t)。于是又根据预备知识(b),log(1+eθTx(i))log(1+e^{-\theta^Tx^{(i)}})θ\theta 的一个凸函数,于是 log[hθ(x(i))]log[h_\theta(x^{(i)})]是一个凹函数(凸函数乘了一个负号)。由于y(i)y^{(i)}取0或1,因此y(i)log[hθ(x(i))]y^{(i)}log[h_\theta(x^{(i)})]是凹函数。
\quad同理:log[1hθ(x(i))]=log[eθTx(i)1+eθTx(i)]=θTx(i)log(1+eθTx(i))log[1-h_\theta(x^{(i)})]=log[\frac{e^{-\theta^Tx^{(i)}}}{1+e^{-\theta^Tx^{(i)}}}]=-\theta^Tx^{(i)}-log(1+e^{-\theta^Tx^{(i)}})由于θTx(i)-\theta^Tx^{(i)}θ\theta 的一个凹函数,因此log[1hθ(x(i))]log[1-h_\theta(x^{(i)})] 是凹函数。由于 1y(i)1-y^{(i)} 取值0或1,因此(1y(i))log[1hθ(x(i))](1-y^{(i)})log[1-h_\theta(x^{(i)})]是凹函数。
\quad由此可知:1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]-\frac{1}{m}[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]θ\theta 的一个凸函数(凹函数前乘了一个负号),也不难得到最后的代价函数也是凸函数了(多个凸函数相加)。