监督学习，非监督学习，半监督学习和增强学习

分成四类

监督学习：给机器的训练数据拥有“标记”或者“答案”

监督学习：银行已经积累了一定的客户信息和他们的信用卡的

医院已经积累了一定的病人信息和他们最终确诊是否患病的情况

市场积累了房屋的基本信息和最终成交的金额

监督学习处理两大类问题：分类和回归

k近邻，线性回归和多项式回归，逻辑回归，SVM，决策树和随机森林

非监督学习核心辅助监督学习

非监督学习：给机器的训练数据没有任何的“标记”或者答案

监督学习，非监督学习，半监督学习和增强学习

电商网站对于我们每一个人都是同等对待，初始的时候没有标记，但是随着我们在电商网站留下越来越多的足迹，电商网站就可以使用非监督学习的方式，为他的客户群体进行分类

可能是理智型或者冲动型重视性价比，或者商品质量

对数据进行降维处理

特征提取：信用卡的信用评级和人的胖瘦无关？

特征压缩：PCA

PCA：我们并不扔掉任何的特征，但是特征关联性非常强监督学习，非监督学习，半监督学习和增强学习

我们可以把点放在一个直线上，就可以把二维变成一维

降维处理：方便可视化

监督学习，非监督学习，半监督学习和增强学习

我们人类很难理解3维以上的空间的，需要降维

很可能降到这种程度丢失了很多信息不过没有关系，主要是可视化，数据直观理解

监督学习，非监督学习，半监督学习和增强学习

所谓异常检测，就是在我们数据中存在一些点，这些点是具有异常的，并不能表达样本整体特性

半监督学习：

一部分数据有“标记”或者“答案”，另一部分数据“没有”

更常见：各种原因产生的标记缺失

我们手机有很多照片，有一些照片可能标记上这个是北京玩的，这个是上海玩的，对应另一些照片没有标记

就是半监督学习

我们通常使用无监督学习对数据做处理，之后使用监督学习手段做模型的训练和预测

增强学习：

根据周围环境的情况，采取行动，根据采取行动的结果，学习行动方式

监督学习，非监督学习，半监督学习和增强学习

我们机器学习的算法叫做Agent

要根据周围的环境来采取行动，在我们采取了行动之后，我们的算法相应就会收到反馈，这种反馈有的时候是reward奖赏机制反馈，有的时候是惩罚机制进行反馈，不管怎样当我们Agent算法得到反馈之后，就会相应改进自己的行为模式，之后再面对环境的其他情况下根据改进的算法再做出相应的action动作，环境再反馈给我们的Agent以此类推

我们的Agent实在一轮一轮的行动反馈中组件增强自己的智能

AlphaGo无论和人博弈，还是和自己博弈每一次落子都是合环境进行交互，在交互之后，对手相应也落一个字，那么AlphaGo

相应就要思考刚才的落子是好还是不好，下一次遇到类似情况是否需要改进

增强学习是以监督学习和半监督学习作为基础的

监督学习，非监督学习，半监督学习和增强学习

相关推荐