任务1-线性回归算法梳理

机器学习的一些概念
有监督学习:用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
无监督学习:与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
泛化能力:模型对未知数据的预测能力。
过拟合:算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合。
欠拟合:算法不太符合样本的数据特征。(方差和偏差以及各自解决办法)
交叉验证:每次从数据中取出一个样本,然后用剩余的样本进行训练。K折交叉验证即将数据分为K个部分,每次取其中一个部分,剩余部分用来做测试,共需要进行K次。一般用用5折和10折交叉验证。
线性回归的原理回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函数)来做属性(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个函数,使得参数之间的关系拟合性最好。
线性回归损失函数、代价函数、目标函数
损失函数:
任务1-线性回归算法梳理
代价函数:https://blog.csdn.net/sd9110110/article/details/52863390
任务1-线性回归算法梳理
目标函数:
任务1-线性回归算法梳理
5. 优化方法(梯度下降法、牛顿法、拟牛顿法等)
梯度下降法:
任务1-线性回归算法梳理
任务1-线性回归算法梳理
牛顿法:用来求解方程的根的。我们假设点x∗为函数f(x)的根,那么有f(x∗)=0。现在我们把函数f(x)在点xk处一阶泰勒展开有:
任务1-线性回归算法梳理
拟牛顿法:因为我们要选择一个矩阵来代替海森矩阵的逆,那么我们首先要研究一下海森矩阵需要具有什么样的特征才能保证牛顿法成功的应用。通过上面的描述我们知道
任务1-线性回归算法梳理
6. 线性回归的评估指标
①、残差估计
总体思想是计算实际值与预测值间的差值简称残差。从而实现对回归模型的评估,一般可以画出残差图,进行分析评估、估计模型的异常值、同时还可以检查模型是否是线性的、以及误差是否随机分布。
②、均方误差(Mean Squared Error, MSE)
均方误差是线性模型拟合过程中,最小化误差平方和(SSE)代价函数的平均值。MSE可以用于不同模型的比较,或是通过网格搜索进行参数调优,以及交叉验证等。
③、决定系数
可以看做是MSE的标准化版本,用于更好地解释模型的性能。换句话说,决定系数是模型捕获相应反差的分数。
7. sklearn参数详解
l kernel :核函数,默认是rbf,可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’  
0 – 线性:u’v  
1 – 多项式:(gamma*u’v + coef0)^degree  
2 – RBF函数:exp(-gamma|u-v|^2)  
3 –sigmoid:tanh(gammau’v + coef0)
l degree :多项式poly函数的维度,默认是3,选择其他核函数时会被忽略。
l gamma : ‘rbf’,‘poly’ 和‘sigmoid’的核函数参数。默认是’auto’,则会选择1/n_featuresl coef0 :核函数的常数项。对于‘poly’和 ‘sigmoid’有用。
l probability :是否采用概率估计?.默认为Falsel shrinking :是否采用shrinking heuristic方法,默认为truel tol :停止训练的误差值大小,默认为1e-3
l cache_size :核函数cache缓存大小,默认为200
l class_weight :类别的权重,字典形式传递。设置第几类的参数C为weightC(C-SVC中的C)
l verbose :允许冗余输出?
l max_iter :最大迭代次数。-1为无限制。
l decision_function_shape :‘ovo’, ‘ovr’ or None, default=None3l random_state :数据洗牌时的种子值,int值
主要调节的参数有:C、kernel、degree、gamma、coef0。