Logistic regression

Logistic regression

一、Logistic函数

logistic 函数:
hθ(x)=11+eθTx h_\theta(x) =\cfrac{1}{1 +e^{-\theta^Tx}}
Logistic regression
Logistic regression原理上是利用最大似然估计的方法对未知参数进行求解。

分类函数

以二分类为例:在机器学习中,使用二分类对数据进行分类时,假设
{p(y=0x;θ)=1hθ(x)P(y=1x;θ)=hθ(x) \Huge \{ ^ { \large P(y = 1 | x; \theta) = h_\theta(x)}_{\large p(y = 0 | x; \theta) = 1 - h_\theta(x)} hθ(x)(0,1) \large h_\theta(x)\in(0,1)

概率函数为
P(x;θ)=(hθ(x))y(1hθ(x))1y \large P(x;\theta) = ( h_\theta(x))^y(1- h_\theta(x))^{1-y}

#为什么选概率函数值为logistic 函数

由中心极限定理,对于二分类函数,当样本数量 nn \to \infty时,样本的联合分布逼近正太分布,故在一定形式上,两点分布在表现形式上与gauss分布有一定的相似性。易推得,指数家族的概率表达通式:
P(y,η)=b(y)eηTT(y)a(η) P(y, \eta) = b(y)e^{\eta^TT(y) - a(\eta)}
其中,η\eta是自然常量,T是样本的充分统计量。
现对二分类概率公式进行同等条件的推导:
p(y)=φy(1φ)1y=exp{log(φy(1φ)1y)}=exp{ylogφ+(1y)log(1φ)}=exp{ylogφ1φ+log(1φ)} p(y) = \varphi^y(1 - \varphi)^{1-y} = exp\{ \log( \varphi^y(1 - \varphi)^{1-y} )\} \\ = \exp\{y\log\varphi + (1-y)\log(1- \varphi)\} \\ = \exp\{y\log\cfrac{\varphi} {1 - \varphi} + \log(1 - \varphi)\}
对比指数家族结构形式,可以令
T=y;η=logφ1φ    φ=11+eη T = y; \\ \eta = \log\cfrac{\varphi}{1 - \varphi} \implies \varphi = \cfrac{1}{1 + e^{-\eta}}
由上诉的推导过程,可以看出Bernoulli分布的概率分布经过简单的变形可以等价与logistic函数。而且推得的logistic函数形式对后序的最大似然估计的运算有很好的简化作用(可多阶求导,而且函数连续光滑)。
以上解释了为什么二分类中选取的概率分布函数是logistic函数。

#为什么取名为logistic regression

y=11+ez=11+e(ωTx+b)    lny1+y=ωTx+b y = \cfrac{1}{1 + e^{-z}} = \cfrac{1}{1 + e^{-(\omega^Tx+b)}} \\ \implies \ln\cfrac{y}{1+y} = \omega^Tx+b
其中y代表x作为正例的可能性,1-y代表x是反例的可能性。
y1y\cfrac{y}{1-y}反映了x作为正例的相对可能性,称为几率。lny1y\ln\cfrac{y}{1-y}就代表了对数几率。故该模型称为对数几率回归,也称logistic regression.

下面介绍利用最大似然估计的方法求解回归参数问题

在二分类模型中,Logistic regression假设样本服从logistic分布。
,其极大似然函数为
L(θ)=i=1nP(yixi;θ)=i=1nhθ(xi)yi(1hθ(xi))1yi    l(θ)=Log(L(θ))=i=1nyilog(hθ(xi))+(1yi)log(1hθ(xi))θ:maxxl(θ)    θ:minθ(1nl(θ)) L(\theta) = \prod\limits_{i=1}^nP(y_i | x_i;\theta) \\ = \prod\limits_{i=1}^nh_\theta(x_i)^{y_i}( 1 - h_\theta(x_i))^{1-y_i} \\ \implies l(\theta) = Log(L(\theta)) = \displaystyle\sum_{i=1}^ny_i\log(h_\theta(x_i)) + (1-y_i)\log(1-h_\theta(x_i)) \\ \theta : \max\limits_x l(\theta) \iff \theta: \min\limits_\theta(-\cfrac{1}{n}l(\theta))
然后借助梯度下降法(newton公式等)对上述最值问题进行求解。

结合以上的分析 在Logistic regression中,我们可以定义cost函数为
cost(hθ(x),y)={log(1hθ(x))y=0log(hθ(x))y=1    cost(x,y)=ylog(y)(1y)(log(1y)) cost(h_\theta(x), y) = \huge \{ ^{-\log(h_\theta(x)) \dotsc y=1} _{-\log(1 - h_\theta(x)) \dotsc y = 0} \\ \iff cost(x,y) = -y\log(_y^-) - (1-y)(\log( 1 - _y^-))
其中y_y^-代表的由参数x和估计值θ\theta预测得到的预测值。
在该假设下,模型的损失函数就与最大似然估计函数结果保持一致了。
暂时写道这里