深度学习: 数据预处理

Introduction

数据预处理 主要分为 数据归一化PCA/ZCA白化 两种方法。

数据预处理 的 时序位置 在数据扩充之后,模型训练之前:

数据采集 –> 数据标记 –> 数据扩充 –> 数据预处理 –> 模型训练

数据归一化

包括 简单缩放规范化

简单缩放

为了使得最终的数据向量落在 [0,1] 或 [ -1,1] 的区间内(根据数据情况而定)。

在处理自然图像时,我们获得的像素值在 [0,255] 区间中,常用的处理是将这些像素值 直接除以 255,使它们 缩放到 [0,1] 中。

规范化

  1. 操作均值0中心化(zero-center);
  2. 规范化(normalize)。

示例图:
深度学习: 数据预处理

去均值 结果图:
深度学习: 数据预处理

PCA/ZCA白化

由于 白化 目前已不常用,这里就不展开探究了。

Code

数据归一化 的 具体实现代码 参见我的另一篇文章:图像预处理: 规范化


[1] 图像预处理: 规范化
[2] 数据预处理-UFLDL