特征选择与特征提取

特征选择:从一组特征中挑选出一些最有效的特征(过程)。

特征提取:通过映射或变换的方法,把模式空间的高维特征向量变成特征空间的低维特征。

进行特征选择的好处主要有以下几种:

  1. 降低过拟合风险,提升模型效果
  2. 提高训练速度,降低运算开销
  3. 更少的特征通常意味着更好的可解释性

特征选择的方法主要分为三大类:过滤式方法 (Filter Methods),包裹式方法 (Wrapper Methods) 和嵌入式方法 (Embedded Methods)。

  • 过滤式方法运用统计指标来为每个特征打分并筛选特征,其聚焦于数据本身的特点。其优点是计算快,不依赖于具体的模型,缺点是选择的统计指标不是为特定模型定制的,因而最后的准确率可能不高。而且因为进行的是单变量统计检验,没有考虑特征间的相互关系。方法有:卡方检验、F 检验和互信息。
  • 包裹式方法使用模型来筛选特征,通过不断地增加或删除特征,在验证集上测试模型准确率,寻找最优的特征子集。包裹式方法因为有模型的直接参与,因而通常准确性较高,但是因为每变动一个特征都要重新训练模型,因而计算开销大,其另一个缺点是容易过拟合。
  • 嵌入式方法利用了模型本身的特性,将特征选择嵌入到模型的构建过程中。典型的如 Lasso 和树模型等。准确率较高,计算复杂度介于过滤式和包裹式方法之间,但缺点是只有部分模型有这个功能。

特征选择与特征提取