监督学习,非监督学习,半监督学习和增强学习

分成四类

监督学习,非监督学习,半监督学习和增强学习

监督学习:给机器的训练数据拥有“标记”或者“答案”

监督学习:银行已经积累了一定的客户信息和他们的信用卡的

                  医院已经积累了一定的病人信息和他们最终确诊是否患病的情况

                   市场积累了房屋的基本信息和最终成交的金额


监督学习处理两大类问题:分类和回归

k近邻,线性回归和多项式回归,逻辑回归,SVM,决策树和随机森林


非监督学习   核心辅助监督学习

非监督学习:给机器的训练数据没有任何的“标记”或者答案

监督学习,非监督学习,半监督学习和增强学习

电商网站对于我们每一个人都是同等对待,初始的时候没有标记,但是随着我们在电商网站留下越来越多的足迹,电商网站就可以使用非监督学习的方式,为他的客户群体进行分类

可能是 理智型  或者冲动型   重视性价比,或者商品质量


对数据进行降维处理

特征提取:信用卡的信用评级和人的胖瘦无关?

特征压缩:PCA


PCA:我们并不扔掉任何的特征,但是特征关联性非常强监督学习,非监督学习,半监督学习和增强学习

我们可以把点放在一个直线上,就可以把二维变成一维

降维处理:方便可视化

监督学习,非监督学习,半监督学习和增强学习

我们人类很难理解3维以上的空间的,需要降维

很可能降到这种程度丢失了很多信息不过没有关系,主要是可视化,数据直观理解

监督学习,非监督学习,半监督学习和增强学习

所谓异常检测,就是在我们数据中存在一些点,这些点是具有异常的,并不能表达样本整体特性


半监督学习:

一部分数据有“标记”或者“答案”,另一部分数据“没有”

更常见:各种原因产生的标记缺失

我们手机有很多照片,有一些照片可能标记上这个是北京玩的,这个是上海玩的,对应另一些照片没有标记

就是半监督学习

我们通常使用无监督学习对数据做处理,之后使用监督学习手段做模型的训练和预测


增强学习:

根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式

监督学习,非监督学习,半监督学习和增强学习

我们机器学习的算法叫做Agent

要根据周围的环境来采取行动,在我们采取了行动之后,我们的算法相应就会收到反馈,这种反馈有的时候是reward奖赏机制反馈,有的时候是惩罚机制进行反馈,不管怎样当我们Agent算法得到反馈之后,就会相应改进自己的行为模式,之后再面对环境的其他情况下根据改进的算法再做出相应的action动作,环境再反馈给我们的Agent以此类推

我们的Agent实在一轮一轮的行动反馈中组件增强自己的智能

AlphaGo无论和人博弈,还是和自己博弈每一次落子都是合环境进行交互,在交互之后,对手相应也落一个字,那么AlphaGo

相应就要思考刚才的落子是好还是不好,下一次遇到类似情况是否需要改进


增强学习是以监督学习和半监督学习作为基础的