机器学习--线性回归

0、前言

断断续续学习机器学习有一个月了,虽然学习探索的过程很有意思,但是过了两三天回过头一想,也没记住啥。学习就是这样,不断重复遗忘,不断巩固加强,直到熟能生巧。我想开始把我最近学到的机器学习相关的概念、知识、疑问和想法记录一下,时常拿出来看看,修改修改。
严格遵守费曼原则:如果不能用通俗的语言讲清楚,那就回头看书去。

1、线性回归(linear regression)

回归就是用一个函数(一条曲线)来拟合所有的数据点,并且使拟合的曲线误差最小。
线性回归模型:
y=hθ(x)=θ0x0+θ1x1+...+θnxn
矩阵形式:
hθ(x)=ni=0θixi
直观理解就是给每个特征一个权值,比如x1表示房屋的面积,x2表示房屋的楼层,假设数据只包含这两个特征,那么线性回归就是找到合适的权值赋给它们。x0一般取1,作为偏置项,起到调整的作用,类似直线的截距。

机器学习--线性回归

2、损失函数(cost function)

通常各种教程就直接给出平方损失:
J(θ)=12mmi=1(hθ(x(i))y(i))2
m ——样本数
x ——特征/输入变量
y——目标变量/输出变量
(x,y)——训练集中的实例
xiyi——第i个样本观察点
一般配合图示解释的也比较有道理:样本点和预测值做差,再平方求和。

机器学习--线性回归

但是从数学上,我更喜欢这个解释:
首先,对于每一个样本点:
y(i)=θTx(i)+ε(i)
其中,误差ε(i)是独立同分布的,且服从均值为0,方差为某定值σ2的高斯分布。
解释一下这句话:
(1)假定样本独立:实际上,若有一个业主卖两套房,那么这两套房的数据就不独立,因为业主会做一些比较考量。但是我们假设每一个业主只卖一套房(实际上,业主之间互相比较也会对样本独立性造成影响,但是我们依然认为服从高斯分布)
(2)假定样本同分布:认为样本来自同一个城市同一个区同一个范围,即假定它服从同一分布。
(3)均值为0:可能我们会认为均值是某一个数,但是注意我们有一个偏置项x0,作为一个调整可以使ε均值调整为0
(4)ε服从高斯分布:我们认为误差是随机生成的,是由众多独立影响的因素引起的综合反应,根据中心极限定理,误差服从高斯分布。

既然εN(0,σ2),那么它的概率密度函数就是:
p(ε(i))=12πσexp((ε(i))22σ2) ——(1)

由于:y(i)=θTx(i)+ε(i)
所以:ε(i)=y(i)θTx(i) 带入(1)
得:p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)——(2)
因为样本是独立同分布的,所以似然函数就是:
(公式太长,有时间再编辑^_^)