机器学习西瓜书(周志华)学习笔记(4)-线性模型
1. 基本形式
线性模型(linear model)就是要学得一个通过属性的线性组合来进行预测的函数:
,
一般用向量形式写成:
其中,是x在第i个属性上的取值;
。
和b学得之后,模型就得以确定。
直观表达了各属性在预测中的重要性,使得线性模型具有很好的可解释性。
2. 线性回归(linear regression)
线性回归学得一个线性模型以尽可能准确地预测实值输出标记。
对于连续值的属性,一般都可以被学习器所用,有时会根据具体的情形作相应的预处理,例如:归一化等;对于离散值的属性,可作下面的处理:
-
若属性值之间存在“序关系”,则可以将其转化为连续值,例如:身高属性分为“高”“中”“矮”,可转化为数值:{1, 0.5, 0}。
-
若属性值之间不存在“序关系”,则通常将其转化为向量的形式,例如:性别属性分为“男”“女”,可转化为二维向量:{(1,0),(0,1)}。
基于均方误差最小化进行模型求解的方法称为”最小二乘法“。如下使得均方误差最小:
线性回归中,最小二乘法用于寻找一条直线,使所有样本到直线上的欧式距离之和最小。
-
线性回归的最小二乘”参数估计(parameter estimation)“:求解
和b使
最小化的过程。
这个求解方法,很容易联想到上式对和b分别求导,再令求导式等于0,就可以求得
和b最优解的闭式(closed-form)解。具体公式如下:(公式图片转载自博客https://blog.****.net/u011826404/article/details/53573115)
- 多元线性回归:对于上式更一般的情形是,样本由d个属性描述。此时我们试图学得:(使得F(xi)相似于yi)
后面的内容还是以书为准吧,我发现写博客的时间太多,进度太慢了。。。。。。