逻辑斯蒂回归公式推导

逻辑斯蒂回归,一个不是很恰当的理解就是在线性回归的基础上加了一个sigmoid函数。将其输出空间映射到0-1上面来。
然后映射后的这个值就代表他被分为类别1的概率。

话不多说。这个就是逻辑回归(线性回归加上sigmoid的)最基本的公式。
线性回归是用y = wx_i +b 去拟合y_i也就是训练一组参数w使得wx+b尽可能的去逼近,而逻辑回归中的对数几率回归(周志华老师的书上有介绍,这里就不啰嗦了)用在分类问题上,它的目标是如果x是正样本,那么最后训练出的w和
b应该使得这个y尽可能的逼近1,负样本则是逼近于0。
逻辑斯蒂回归公式推导

逻辑斯蒂回归公式推导

有了这两个公式。就可以用极大似然求解了。
极大似然的意思就是使训练样本中的数据出现的概率尽可能的大。

l(w,b)=i=1mlnp(yi|xi;w,b)

每个样本属于其真实标记的概率越大越好。

p(yi|xi;w,b)=p(y=0|xi;w,b)(1yi)p(y=1|xi;w,b)yi

书上这里写得不是特别细。所以可能会有点误解。
解释一下上面的公式,当真实标记是1的时候前面一项为0,结果就是后面一项

p(yi|xi;w,b)=p(y=1|xi;w,b)p1

同理真实标记是0的时候
p(yi|xi;w,b)=p(y=0|xi;w,b)p0

带入极大似然函数得到

l(w,b)=i=1mlnp(yi|xi;w,b)=i=1mln(p(1yi)0pyi1)=i=1m[(1yi)lnp0+yilnp1]=i=1m[lnp0+yi(lnp1lnp0)]

有前面的公式2,则有逻辑斯蒂回归公式推导

所以上面的

l(w,b)=i=1m[ln(ewTx+b+1)+yiwTx+b]i=1m[ln(eβTxi+1)+yiβTxi]

求到这个地方就ok了。然后就是对他求导。
求导就直接用书上的公式了
只不过书上的公式和这相差一个负号。(注意相差一个负号)
逻辑斯蒂回归公式推导
然后如果用梯度下降就直接用一阶导数迭代,牛顿法要用到一阶二阶导数。