机器学习基本概念

机器学习

一.基本术语

  1. 数据集(data set)
  2. 样本空间(属性张成的空间)
  3. 示例(样本 特征向量)
  4. 训练集(训练样本的集合)
  5. 测试样本
  6. 学习器(模型)

二.学习

学习过程:在所有假设组成的空间进行搜索,搜索目标是找到与训练集匹配的假设。

机器学习基本概念

三.机器学习分类

  1. 监督学习(训练样本拥有标记信息)
    1. 离散值 分类
    2. 连续值 回归
  2. 无监督学习 聚类

四.模型评估与选择

分类 错误率/精度 等等

回归 均方误差

实际预测与真实输出之间的差异:误差

训练集上的误差 训练误差/经验误差

新样本上的误差 泛化误差

过拟合/欠拟合

评估方法 留出法 交叉验证法 自助法

很多学习器是为测试样本产生一个实值或者概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值则为正类,否则为反类。