逻辑回归中，假设函数hypothesis $h_{θ} (x)$ 为：

h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}} = g (θ^{T} x + b)

当

h_{θ} (x) = g (θ^{T} x) \geq 0.5

, 即

θ^{T} x \geq 0

, 此时意味着预估

y = 1

;
当

h_{θ} (x) = g (θ^{T} x) < 0.5

, 即

θ^{T} x < 0

, 此时意味着预估

y = 0

所以我们认为 $θ^{T} x = 0$ 是一个决策边界，当它大于0或小于0时，逻辑回归模型分别预测不同的分类结果。

假设函数hypothesis就是y=1的概率：

{\begin{cases} P (y = 1 | x; θ) = h_{θ} (x) \\ P (y = 0 | x; θ) = 1 - h_{θ} (x) \end{cases}

损失函数与梯度下降

损失函数loss function与代价函数cost function的区别与联系
1.损失函数(Loss function)是定义在单个训练样本上的，也就是就算一个样本的误差，比如我们想要分类，就是预测的类别和实际类别的区别，是一个样本的哦，用L表示
2.代价函数(Cost function)是定义在整个训练集上面的，也就是所有样本的误差的总和的平均，也就是损失函数的总和的平均，有没有这个平均其实不会影响最后的参数的求解结果。

常见的损失函数
机器学习或者统计机器学习常见的损失函数有如下四种：
1. 0-1损失函数（0-1 loss function）
2. 平方损失函数（quadratic loss function)
3. 绝对值损失函数(absolute loss function)
4. 对数损失函数（logarithmic loss function) 或对数似然损失函数(log-likehood loss function)

构造代价函数求出参数的值

构造代价函数

根据上面的内容，我们可以得到逻辑回归的对数似然损失函数cost function：

c o s t (h_{θ} (x), y) = {\begin{cases} - l o g (h_{θ} (x)) & if y=1 \\ - l o g (1 - h_{θ} (x)) & if y=0 \end{cases}

稍微解释下这个损失函数，或者说解释下对数似然损失函数：
当y=1时，假定这个样本为正类。如果此时

h_{θ} (x) = 1

,则单对这个样本而言的cost=0，表示这个样本的预测完全准确。那如果所有样本都预测准确，总的cost=0
但是如果此时预测的概率

h_{θ} (x) = 0

，那么cost→∞。直观解释的话，由于此时样本为一个正样本，但是预测的结果P(y=1|x;θ)=0, 也就是说预测 y=1的概率为0，那么此时就要对损失函数加一个很大的惩罚项。
当y=0时，推理过程跟上述完全一致，不再累赘。
将以上两个表达式合并为一个，则单个样本的损失函数可以描述为：

c o s t (h_{θ} (x), y) = - y_{i} l o g (h_{θ} (x)) - (1 - y_{i}) l o g (1 - h_{θ} (x))

因为

y_{i}

只有两种取值情况，1或0，分别令y=1或y=0，即可得到原来的分段表示式。
全体样本的代价函数可以表示为：

c o s t (h_{θ} (x), y) = \sum_{i = 1}^{m} - y_{i} l o g (h_{θ} (x)) - (1 - y_{i}) l o g (1 - h_{θ} (x))

这就是逻辑回归最终的代价函数表达式。
代价函数确定了，接下来的问题就是机械计算的工作了。常见的方法是用梯度下降法。

上述代价函数可以用极大似然估计求得：
由

{\begin{cases} P (y = 1 | x; θ) = h_{θ} (x) \\ P (y = 0 | x; θ) = 1 - h_{θ} (x) \end{cases}

有

P (y_{i} | x_{i}) = {\begin{cases} h_{θ} (x_{i}) & y_{i} = 1 \\ 1 - h_{θ} (x_{i}) & y_{i} = 0 \end{cases}

将两个式子整合到一起

P (y_{i} | x_{i}) = (h_{θ} (x_{i}))^{y_{i}} (1 - h_{θ} (x_{i}))^{1 - y_{i}}

联合似然函数为

L = \prod_{i = 1}^{m} P (y_{i} | x_{i}) = \prod_{i = 1}^{m} (h_{θ} (x_{i}))^{y_{i}} (1 - h_{θ} (x_{i}))^{1 - y_{i}}

取对数

l = \sum_{i = 1}^{m} (y_{i} l o g (h_{θ} (x_{i})) + (1 - y_{i}) l o g (1 - h_{θ} (x_{i})))

最大化似然函数

L

等价于最小化

- L

，等价于最小化

- l

，

- l

可作为代价函数。

求出参数的值

统计学习方法都是由模型，策略，和算法构成的，即统计学习方法由三要素构成，可以简单表示为：
方法=模型+策略+算法
https://blog.csdn.net/lookqlp/article/details/51161640
一般回归问题的步骤是：
1. 寻找预测函数（h函数，hypothesis）
2. 构造损失函数（J函数）
3. 使损失函数最小，获得回归系数θ

而第三步中常见的算法有：
1. 梯度下降
2. 牛顿迭代算法
3. 拟牛顿迭代算法（BFGS算法和L-BFGS算法）
其中随机梯度下降和L-BFGS在spark mllib中已经实现，梯度下降是最简单和容易理解的。

逻辑回归梯度下降法详解