慕课网机器学习入门笔记1

机器学习世界的数据
机器学习就是喂给我们算法数据,让我们的算法寻找对应的关系。
例:鸢尾花数据
数据整体叫数据集( data set)
每一行数据成为一个样本sample
除最后一列,每一列表达样本的一个特征feature,这一部分整体可以标记为一个X,第i个样本的第j个特征值标记为Xij
最后一列,称为标记label,整体标记为y,小y的原因是它不是矩阵,是一个向量
慕课网机器学习入门笔记1
特征可以很抽象,
图像,每一个像素点都可以看作是特征。
比如28*28的图像有=784个特征
如果是彩色,还有RGB,特征更多。
慕课网机器学习入门笔记1
用特征向量表示空间中的某一个点,组成特征空间
在多特征(高维空间)中的问题简化到低维空间考虑,得出结论后再推广都高维空间
监督学习,非监督学习,半监督学习,增强学习
1 . 监督学习,给机器的训练数据拥有"标记"和"答案",类型有分类和回归。
慕课网机器学习入门笔记1
2 . 半监督学习,部分数据有“标记”或者“答案”,另一部分没有(例子:相册照片部分有地点标记,部分没地点标记)。先使用无监督学习对数据处理,之后使用监督学习进行模型训练和预测。
3 . 非监督学习,无标记,对数据进行无标签分类,对数据进行降维(不影响结果的准确性,还能方便数据的可视化),特征压缩PCA,异常检测。
4 .增强学习,通过环境采取行动,通过奖惩进行调整
批量学习,在线学习,参数学习和非参数学习
1 . 批量学习(Batch Learning),简单,适用于模型比较稳定的场景,可以定时重新批量学习,新数据和老数据组合训练。缺点是学习成本高的时候时间来不及
2 . 在线学习(Online Learning),输出结果输入作为新数据进行训练,需要对数据进行监控。优点是可以及时反映环境变化,缺点是新的数据可能会带来不好的变化(所以需要对数据进行监控,防止坏数据进入训练)
3 . 参数学习(Parametric Learning),一旦学到参数,就不再需要原有数据集
4 . 非参数学习(Nonparametric Learning),不对模型进行过多假设