机器学习--线性回归

0、前言

断断续续学习机器学习有一个月了，虽然学习探索的过程很有意思，但是过了两三天回过头一想，也没记住啥。学习就是这样，不断重复遗忘，不断巩固加强，直到熟能生巧。我想开始把我最近学到的机器学习相关的概念、知识、疑问和想法记录一下，时常拿出来看看，修改修改。
严格遵守费曼原则：如果不能用通俗的语言讲清楚，那就回头看书去。

1、线性回归（linear regression）

回归就是用一个函数（一条曲线）来拟合所有的数据点，并且使拟合的曲线误差最小。
线性回归模型：
y=hθ(x)=θ0x0+θ1x1+...+θnxn
矩阵形式：
hθ(x)=∑ni=0θixi
直观理解就是给每个特征一个权值，比如x1表示房屋的面积，x2表示房屋的楼层，假设数据只包含这两个特征，那么线性回归就是找到合适的权值赋给它们。x0一般取1，作为偏置项，起到调整的作用，类似直线的截距。

机器学习--线性回归

2、损失函数（cost function）

通常各种教程就直接给出平方损失:
J(θ)=12m∑mi=1(hθ(x(i))−y(i))2
m ——样本数
x ——特征/输入变量
y——目标变量/输出变量
（x,y）——训练集中的实例
（x（i），y（i））——第i个样本观察点
一般配合图示解释的也比较有道理：样本点和预测值做差，再平方求和。

机器学习--线性回归

但是从数学上，我更喜欢这个解释：
首先，对于每一个样本点：
y(i)=θTx(i)+ε(i)
其中，误差ε(i)是独立同分布的，且服从均值为0，方差为某定值σ2的高斯分布。
解释一下这句话：
（1）假定样本独立：实际上，若有一个业主卖两套房，那么这两套房的数据就不独立，因为业主会做一些比较考量。但是我们假设每一个业主只卖一套房（实际上，业主之间互相比较也会对样本独立性造成影响，但是我们依然认为服从高斯分布）
（2）假定样本同分布：认为样本来自同一个城市同一个区同一个范围，即假定它服从同一分布。
（3）均值为0：可能我们会认为均值是某一个数，但是注意我们有一个偏置项x0，作为一个调整可以使ε均值调整为0
（4）ε服从高斯分布：我们认为误差是随机生成的，是由众多独立影响的因素引起的综合反应，根据中心极限定理，误差服从高斯分布。

既然ε∼N(0,σ2)，那么它的概率密度函数就是：
p(ε(i))=12π√σexp(−(ε(i))22σ2) ——(1)

由于：y(i)=θTx(i)+ε(i)
所以：ε(i)=y(i)−θTx(i) 带入(1)
得：p(y(i)|x(i);θ)=12π√σexp(−(y(i)−θTx(i))22σ2)——(2)
因为样本是独立同分布的，所以似然函数就是：
（公式太长，有时间再编辑^_^）

机器学习--线性回归

0、前言

1、线性回归（linear regression）

2、损失函数（cost function）

相关推荐