特征选择与特征提取

特征选择：从一组特征中挑选出一些最有效的特征（过程）。

特征提取：通过映射或变换的方法，把模式空间的高维特征向量变成特征空间的低维特征。

进行特征选择的好处主要有以下几种：

特征选择的方法主要分为三大类：过滤式方法 (Filter Methods)，包裹式方法 (Wrapper Methods) 和嵌入式方法 (Embedded Methods)。

过滤式方法运用统计指标来为每个特征打分并筛选特征，其聚焦于数据本身的特点。其优点是计算快，不依赖于具体的模型，缺点是选择的统计指标不是为特定模型定制的，因而最后的准确率可能不高。而且因为进行的是单变量统计检验，没有考虑特征间的相互关系。方法有：卡方检验、F 检验和互信息。
包裹式方法使用模型来筛选特征，通过不断地增加或删除特征，在验证集上测试模型准确率，寻找最优的特征子集。包裹式方法因为有模型的直接参与，因而通常准确性较高，但是因为每变动一个特征都要重新训练模型，因而计算开销大，其另一个缺点是容易过拟合。
嵌入式方法利用了模型本身的特性，将特征选择嵌入到模型的构建过程中。典型的如 Lasso 和树模型等。准确率较高，计算复杂度介于过滤式和包裹式方法之间，但缺点是只有部分模型有这个功能。

特征选择与特征提取