《机器学习》笔记(三)

线性回归
回归和分类的区别在于要预测的⽬标函数是连续值。
线性回归定义
《机器学习》笔记(三)
可以使⽤最⼩⼆乘法(least square method)对向量形式中的参数w和b估计

w和b的最⼩⼆乘法估计
最⼩⼆乘法就是基于及预测值和真实值的均⽅差最⼩化的⽅法来估计参数值
《机器学习》笔记(三)
《机器学习》笔记(三)
《机器学习》笔记(三)
《机器学习》笔记(三)
线性模型的优点
形式简单、易于建模
可解释性
非线性模型的基础

⼴义线性回归
只要学到w和b,模型就可以确定。对于任意的测试样例x,只要输⼊它的属性值,就可以输出
它的预测值。
⼴义线性回归定义generalized linear regression
线性回归假定输入空间到输出空间的函数映射成线性关系,但在现实⽣活中很多问题都是非线
性的。所以将线性回归的预测值做⼀个非线性的函数变化去逼近真实值,这样得到的模型称为
⼴义线性回归
《机器学习》笔记(三)
g(·)可以为任何函数,当g(·)为指数函数时,得到的回归模型称为对数线性回归,因为它将真
实值的对数作为线性回归逼近的⽬标。
《机器学习》笔记(三)

逻辑斯蒂回归(分类)
是解决如何进⾏分类任务的
考虑⼆分类任务,⼆分类任务的输出是{0,1},但线性回归模型产⽣的预测值是实值z,所以需
要将实值z转换为0/1值,这时候使⽤单位阶跃函数。
《机器学习》笔记(三)
但是单位阶跃函数不连续,所以不能直接⽤作联系函数g(·)。所以希望可以找到能在⼀定程度上近似单位阶跃函数的替代函数,并希望它在临界点连续且单调可微。logistic functio是⼀个常⽤的替代函数(函数形似s,是Sigmoid函数的典型代表,它将z值转化为⼀个接近0或1的y值,并且其输出值在z=0附近变化很陡)

《机器学习》笔记(三)
其对应的模型称为logistic regression,虽然名字是“回归”,但实际上是分类学习⽅logistic regression的优点
1)可以直接对分类可能性进⾏预测,将y视为样本x作为正例的概率
2)⽆需事先假设数据分布,这样就避免了假设分布不准确所带来的问题
3)是任意阶可导的凸函数,可直接应⽤现有数值优化算法求取最优解。
将y视为样本x属于正例的概率p(y=1|x),根据logistic函数可以得到给
《机器学习》笔记(三)
《机器学习》笔记(三)

后面是多分类问题,说实话很鸡肋,没啥实际意义…多分类的直接用多输出单元的神经网络吧,别费劲了