Logistic regression
一、Logistic函数
logistic 函数:
hθ(x)=1+e−θTx1
Logistic regression原理上是利用最大似然估计的方法对未知参数进行求解。
分类函数
以二分类为例:在机器学习中,使用二分类对数据进行分类时,假设
{p(y=0∣x;θ)=1−hθ(x)P(y=1∣x;θ)=hθ(x) hθ(x)∈(0,1)
概率函数为
P(x;θ)=(hθ(x))y(1−hθ(x))1−y
#为什么选概率函数值为logistic 函数
由中心极限定理,对于二分类函数,当样本数量 n→∞时,样本的联合分布逼近正太分布,故在一定形式上,两点分布在表现形式上与gauss分布有一定的相似性。易推得,指数家族的概率表达通式:
P(y,η)=b(y)eηTT(y)−a(η)
其中,η是自然常量,T是样本的充分统计量。
现对二分类概率公式进行同等条件的推导:
p(y)=φy(1−φ)1−y=exp{log(φy(1−φ)1−y)}=exp{ylogφ+(1−y)log(1−φ)}=exp{ylog1−φφ+log(1−φ)}
对比指数家族结构形式,可以令
T=y;η=log1−φφ⟹φ=1+e−η1
由上诉的推导过程,可以看出Bernoulli分布的概率分布经过简单的变形可以等价与logistic函数。而且推得的logistic函数形式对后序的最大似然估计的运算有很好的简化作用(可多阶求导,而且函数连续光滑)。
以上解释了为什么二分类中选取的概率分布函数是logistic函数。
#为什么取名为logistic regression
y=1+e−z1=1+e−(ωTx+b)1⟹ln1+yy=ωTx+b
其中y代表x作为正例的可能性,1-y代表x是反例的可能性。
1−yy反映了x作为正例的相对可能性,称为几率。ln1−yy就代表了对数几率。故该模型称为对数几率回归,也称logistic regression.
下面介绍利用最大似然估计的方法求解回归参数问题
在二分类模型中,Logistic regression假设样本服从logistic分布。
,其极大似然函数为
L(θ)=i=1∏nP(yi∣xi;θ)=i=1∏nhθ(xi)yi(1−hθ(xi))1−yi⟹l(θ)=Log(L(θ))=i=1∑nyilog(hθ(xi))+(1−yi)log(1−hθ(xi))θ:xmaxl(θ)⟺θ:θmin(−n1l(θ))
然后借助梯度下降法(newton公式等)对上述最值问题进行求解。
结合以上的分析 在Logistic regression中,我们可以定义cost函数为
cost(hθ(x),y)={−log(1−hθ(x))…y=0−log(hθ(x))…y=1⟺cost(x,y)=−ylog(y−)−(1−y)(log(1−y−))
其中y−代表的由参数x和估计值θ预测得到的预测值。
在该假设下,模型的损失函数就与最大似然估计函数结果保持一致了。
暂时写道这里