机器学习以及scikit-learn库功能概述

一、机器学习

定义:机器学习是从数据中自动分析获取模型,并利用模型对未知数据进行预测。
分类:
机器学习以及scikit-learn库功能概述
监督学习:在训练模型时提供给学习系统训练样本以及样本对应的类别标签。
目标:利用一组带有标签的数据学习从输入到输出的映射,然后将这种映射关系应用到未知数据上(离散数据–>分类问题,连续数据–>回归问题)
无监督学习:训练数据包含一组输入向量而没有相应的目标值。
目标:发现原始数据中相似样本的集合(聚类),或者确定数据的分布(密度估计),或者降维。
典型的无监督学习算法:聚类学习,自组织神经网络学习
半监督学习:训练数据部分有标识,部分无标识,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。
强化学习:通过试错来发现最优行为策略,主要包含四个元素:agent,环境状态,行为,奖励。
强化学习的目标就是获得最多的累计奖励。

二、scikit-learn

机器学习以及scikit-learn库功能概述
机器学习以及scikit-learn库功能概述
机器学习以及scikit-learn库功能概述
分类:识别给定对象的所属类别,常见应用场景垃圾邮件检测和图像识别
聚类:自动识别具有相似属性的给定对象,并将其分组为集合
回归:预测与给定对象相关联的连续值属性。
数据降维:使用主成分分析(PCA)、非负矩阵分解(NMF)或特征选择等降维技术来减少要考虑的随机变量的个数,其主要应用场景包括可视化处理和效率提升。
模型选择:模型选择是对于给定参数和模型的比较、验证和选择,其主要目的是通过参数调整来提升精度
数据预处理:数据预处理是指数据的特征提取归一化,是机器学习第一个也是最重要的一个环节。
(归一化:将输入数据转换为具有零均值和单位权方差的新变量,但因为大多数时候都做不到精确等于零,因此会设置一个可接受的范围,一般都要求落在(0,1)之间。
特征提取:将文本或图像数据转换为可用于机器学习的数字变量)