浙大机器学习课程-2-概念介绍

提取特征这一过程最重要，特征提取的好，不管用什么算法，基本上都能得到较好的结果，如果提取的特征差了，有很多噪声，不管用多好的算法，得出的结果都不会特别好，此课程没讲特征提取（假设所有特征已经提取好）
没有免费午餐定理
如果不对特征空间有先验假设（则没有办法评价算法的好坏），则所有算法的平均表现是一样的
当样本标签未知的时候，算法好坏都是一样的，而像测试集这样已知标签的样本，才能评估算法性能的好坏

根据已知样本对位置样本进行估计我们认为:特征差距小的样本更有可能是同一类。

浙大机器学习课程-2-概念介绍

有监督学习：给出数据和标签（标签就是数据所属的类）
无监督学习：只有数据，没有标签
半监督学习：一些数据有标签，一些数据没有标签

强化学习：比如无人驾驶，学习的内容不是这一步走的对不对，而是关心从一个地方到另一个地方的多种路径选择，没有对与不对，总体目标是在不违规的情况下，从一个地方到另一个地方。以及计算机下棋，只关心最后的输赢，每一步的走法都不一样。强化学习不预测标签，预测最后的结果

监督学习分为分类和回归
分类：所有的标签是离散的值
回归：所有的标签是连续的值
比如人脸识别，判断两个人是不是同一个人，只有两个标签，一个值是同一个人、一个值不是同一个人
计算机里用数值表示这两个值，用1表示是同一个人，0表示不是同一个人，标签不固定，也可以去1，-1，1,2，标签是离散的

给你一张图片，让你判断这张图片是数据库中的哪一个人，给数据库中的人编号，那么判断结果数据输出也只是一个离散的数值

比如预测年龄，是可以精确到小数点后2位的，是一个连续的值，年龄的估计是回归的问题，但是如果只预测整数，那就是分类（0-100这101个类）问题，不是回归。还有预测股票走势也是回归问题

分类和回归没有特别明确的概念和界线，所以很多分类的算法也可以用来做回归

浙大机器学习课程-2-概念介绍

相关推荐