单变量线性回归

训练集:在机器学习中,一般将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。
**损失函数:**机器学习模型关于单个样本的预测值与真实值的差称为损失。损失越小,模型越好,如果预测值与真实值相等,就是没有损失。用于计算损失的函数称为损失函数。模型每一次预测的好坏用损失函数来度量。
1.线性回归的基本概念
回归,一般都是指线性回归(linear regression).
从我们最熟悉的开始, 已知两点,求直线公式设 y = ax+b, 带入两点,求得解析解为 y = 3x-60
单变量线性回归
回归方程 (regression equation): y = 3x-60
回归系数 (regression weights): 3和-60可以称为回归系数
回归: 求这些回归系数的过程
2.线性回归的一般步骤
单变量线性回归
对于一元线性回归(单变量线性回归)来说,学习算法为 y = ax + b
我们换一种写法: hθ(x) = θ0 + θ1x1
3. 拟合
线性回归实际上要做的事情就是: 选择合适的参数(θ0, θ1),使得hθ(x)方程,很好的拟合训练集。实现如何把最有可能的直线与我们的数据相拟合。

拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。拟合的曲线一般可以用函数表示.
下面的三张图, 展示了拟合的三种状态:

图一是部分拟合
图二是完全不拟合
图三是完全拟合
单变量线性回归
4 损失函数: 均方误差MSE
拟合过程中因为theta0和theta1的取值准确度, 预测的结果与训练集中的实际值有差距。
我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。
单变量线性回归
目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得损函数最小。
单变量线性回归