浙大机器学习课程-2-概念介绍

提取特征这一过程最重要,特征提取的好,不管用什么算法,基本上都能得到较好的结果,如果提取的特征差了,有很多噪声,不管用多好的算法,得出的结果都不会特别好,此课程没讲特征提取(假设所有特征已经提取好)
没有免费午餐定理
如果不对特征空间有先验假设(则没有办法评价算法的好坏),则所有算法的平均表现是一样的
当样本标签未知的时候,算法好坏都是一样的,而像测试集这样已知标签的样本,才能评估算法性能的好坏

根据已知样本对位置样本进行估计 我们认为:特征差距小的样本更有可能是同一类。

浙大机器学习课程-2-概念介绍

有监督学习:给出数据和标签(标签就是数据所属的类)
无监督学习:只有数据,没有标签
半监督学习:一些数据有标签,一些数据没有标签

强化学习:比如无人驾驶,学习的内容不是这一步走的对不对,而是关心从一个地方到另一个地方的多种路径选择,没有对与不对,总体目标是在不违规的情况下,从一个地方到另一个地方。以及计算机下棋,只关心最后的输赢,每一步的走法都不一样。强化学习不预测标签,预测最后的结果

监督学习分为分类和回归
分类:所有的标签是离散的值
回归:所有的标签是连续的值
比如人脸识别,判断两个人是不是同一个人,只有两个标签,一个值是同一个人、一个值不是同一个人
计算机里用数值表示这两个值,用1表示是同一个人,0表示不是同一个人,标签不固定,也可以去1,-1,1,2,标签是离散的

给你一张图片,让你判断这张图片是数据库中的哪一个人,给数据库中的人编号,那么判断结果数据输出也只是一个离散的数值

比如预测年龄,是可以精确到小数点后2位的,是一个连续的值,年龄的估计是回归的问题,但是如果只预测整数,那就是分类(0-100这101个类)问题,不是回归。还有预测股票走势也是回归问题

分类和回归没有特别明确的概念和界线,所以很多分类的算法也可以用来做回归